WEKO3
アイテム
Simul-MuST-C:大規模言語モデルによる語順の単調性に着目した同時音声翻訳用コーパスの構築
https://ipsj.ixsq.nii.ac.jp/records/238501
https://ipsj.ixsq.nii.ac.jp/records/238501f568cdd7-9454-4221-9231-521032799136
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]()
2026年8月27日からダウンロード可能です。
|
Copyright (c) 2024 by the Information Processing Society of Japan
|
|
非会員:¥660, IPSJ:学会員:¥330, NL:会員:¥0, DLIB:会員:¥0 |
Item type | SIG Technical Reports(1) | |||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
公開日 | 2024-08-27 | |||||||||||||
タイトル | ||||||||||||||
タイトル | Simul-MuST-C:大規模言語モデルによる語順の単調性に着目した同時音声翻訳用コーパスの構築 | |||||||||||||
言語 | ||||||||||||||
言語 | jpn | |||||||||||||
キーワード | ||||||||||||||
主題Scheme | Other | |||||||||||||
主題 | 言語資源・評価 | |||||||||||||
資源タイプ | ||||||||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||||||||
資源タイプ | technical report | |||||||||||||
著者所属 | ||||||||||||||
奈良先端科学技術大学院大学 | ||||||||||||||
著者所属 | ||||||||||||||
奈良先端科学技術大学院大学 | ||||||||||||||
著者所属 | ||||||||||||||
奈良先端科学技術大学院大学 | ||||||||||||||
著者所属 | ||||||||||||||
奈良先端科学技術大学院大学 | ||||||||||||||
著者所属(英) | ||||||||||||||
en | ||||||||||||||
Nara Institute of Science and Technology | ||||||||||||||
著者所属(英) | ||||||||||||||
en | ||||||||||||||
Nara Institute of Science and Technology | ||||||||||||||
著者所属(英) | ||||||||||||||
en | ||||||||||||||
Nara Institute of Science and Technology | ||||||||||||||
著者所属(英) | ||||||||||||||
en | ||||||||||||||
Nara Institute of Science and Technology | ||||||||||||||
著者名 |
蒔苗, 茉那
× 蒔苗, 茉那
× 坂井, 優介
× 上垣外, 英剛
× 渡辺, 太郎
|
|||||||||||||
論文抄録 | ||||||||||||||
内容記述タイプ | Other | |||||||||||||
内容記述 | 同時音声翻訳は,原発話の入力の終了を待たずに訳出を開始することから,高品質かつ低遅延の訳出が求められる.一方で,話者のペースに遅れることなく訳出を行う同時通訳者は,原発話をより小さいセグメントに区切り,原発話の語順を可能な限り保ちながら各セグメントを順次訳出しているとされ,この技法はサラミテクニックと呼ばれている.同時音声翻訳システムも,サラミテクニックを参考に,原発話の語順により一致した訳出ができれば,遅延の低減につながることが期待される.しかし,現在同時音声翻訳システム構築に使用されているデータでは,単語の並び替えが頻繁に発生し,原言語と目的言語の間で語順の単調性が保たれていない場合もあり,そのようなコーパスを元に低遅延の訳出を達成することには,限界がある.本稿では,大規模言語モデルを用いて,サラミテクニックを参考に,既存の音声翻訳コーパスから,原言語と目的言語の語順ができるだけ一致するように書き換えを行ったデータセット Simul-MuST-C を新規に構築する.英日,英中,英独の 3 言語を対象に,Simul-MuST-C を使用して同時音声翻訳システムを構築した結果,サラミテクニックによる単調性向上の効果は言語ペアの文法構造の差によって変化し,英日間のように文法的に大きく語順の異なるペアに対して,特に高品質かつ低遅延な訳出が達成可能であることがわかった. | |||||||||||||
書誌レコードID | ||||||||||||||
収録物識別子タイプ | NCID | |||||||||||||
収録物識別子 | AN10115061 | |||||||||||||
書誌情報 |
研究報告自然言語処理(NL) 巻 2024-NL-261, 号 8, p. 1-18, 発行日 2024-08-27 |
|||||||||||||
ISSN | ||||||||||||||
収録物識別子タイプ | ISSN | |||||||||||||
収録物識別子 | 2188-8779 | |||||||||||||
Notice | ||||||||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||||||||
出版者 | ||||||||||||||
言語 | ja | |||||||||||||
出版者 | 情報処理学会 |