@techreport{oai:ipsj.ixsq.nii.ac.jp:00238501, author = {蒔苗, 茉那 and 坂井, 優介 and 上垣外, 英剛 and 渡辺, 太郎}, issue = {8}, month = {Aug}, note = {同時音声翻訳は,原発話の入力の終了を待たずに訳出を開始することから,高品質かつ低遅延の訳出が求められる.一方で,話者のペースに遅れることなく訳出を行う同時通訳者は,原発話をより小さいセグメントに区切り,原発話の語順を可能な限り保ちながら各セグメントを順次訳出しているとされ,この技法はサラミテクニックと呼ばれている.同時音声翻訳システムも,サラミテクニックを参考に,原発話の語順により一致した訳出ができれば,遅延の低減につながることが期待される.しかし,現在同時音声翻訳システム構築に使用されているデータでは,単語の並び替えが頻繁に発生し,原言語と目的言語の間で語順の単調性が保たれていない場合もあり,そのようなコーパスを元に低遅延の訳出を達成することには,限界がある.本稿では,大規模言語モデルを用いて,サラミテクニックを参考に,既存の音声翻訳コーパスから,原言語と目的言語の語順ができるだけ一致するように書き換えを行ったデータセット Simul-MuST-C を新規に構築する.英日,英中,英独の 3 言語を対象に,Simul-MuST-C を使用して同時音声翻訳システムを構築した結果,サラミテクニックによる単調性向上の効果は言語ペアの文法構造の差によって変化し,英日間のように文法的に大きく語順の異なるペアに対して,特に高品質かつ低遅延な訳出が達成可能であることがわかった.}, title = {Simul-MuST-C:大規模言語モデルによる語順の単調性に着目した同時音声翻訳用コーパスの構築}, year = {2024} }