| Item type |
SIG Technical Reports(1) |
| 公開日 |
2025-06-29 |
| タイトル |
|
|
言語 |
ja |
|
タイトル |
誤り単語の混入による単語単位翻訳誤り検出の頑健性評価 |
| 言語 |
|
|
言語 |
jpn |
| キーワード |
|
|
主題Scheme |
Other |
|
主題 |
翻訳 |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
| 著者所属 |
|
|
|
奈良先端科学技術大学院大学 |
| 著者所属 |
|
|
|
NTTコミュニケーション科学基礎研究所 |
| 著者所属 |
|
|
|
NTTコミュニケーション科学基礎研究所 |
| 著者所属 |
|
|
|
奈良先端科学技術大学院大学 |
| 著者所属 |
|
|
|
奈良先端科学技術大学院大学 |
| 著者所属(英) |
|
|
|
en |
|
|
NAIST |
| 著者所属(英) |
|
|
|
en |
|
|
NAIST |
| 著者所属(英) |
|
|
|
en |
|
|
NAIST |
| 著者名 |
岩國,巧
出口,祥之
永田,昌明
上垣外,英剛
渡辺,太郎
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
機械翻訳の発展により,翻訳精度や流暢さは飛躍的に向上したが,依然として固有表現や数値といった重要な単語の誤訳は深刻な問題である.特に金融や医療などの専門領域では,こうした誤訳が重大な経済的損失や社会的リスクを引き起こす可能性があるため,翻訳評価指標には単語レベルの誤りに対する頑健な誤り検出能力が求められる.本研究では,翻訳誤りの中でも固有表現および数値の誤りに着目し,その誤り検出性能の頑健性を評価する.具体的には,対訳コーパスを利用して大規模言語モデル(LLM)により翻訳文を生成し,数値や固有表現を書き換えた擬似誤訳文を自動的に作成し,誤り単語に置換したトークンをBAD,それ以外をOKとする単語単位の誤訳検出用データセットを構築した.構築したデータセットを用いて,ニューラルベースの翻訳評価指標XCOMET [1]に対して,誤り検出性能を,文レベルおよびトークンレベルの両面から検証した.金融ドメインの英日翻訳コーパスTimely Disclosure Documents Corpus (TDDC) [2]において評価した結果,XCOMETは誤りを含まないトークンまで誤ってBADと判定する傾向が強く,特に文頭において誤判定が多発していることが判明した.これにより,XCOMETは一部の誤訳には高い感度を示すが,エラー位置の正確な特定や局所的な過検出の制御に課題を残していることが明らかとなった.本研究の分析は,翻訳評価における単語誤りへの耐性と限界を明示し,今後の指標改善に向けた基盤的知見を提供する. |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10115061 |
| 書誌情報 |
研究報告自然言語処理(NL)
巻 2025-NL-264,
号 4,
p. 1-8,
発行日 2025-06-29
|
| ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8779 |
| Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |