@techreport{oai:ipsj.ixsq.nii.ac.jp:02002812,
 author = {岩國,巧 and 出口,祥之 and 永田,昌明 and 上垣外,英剛 and 渡辺,太郎},
 issue = {4},
 month = {Jun},
 note = {機械翻訳の発展により，翻訳精度や流暢さは飛躍的に向上したが，依然として固有表現や数値といった重要な単語の誤訳は深刻な問題である．特に金融や医療などの専門領域では，こうした誤訳が重大な経済的損失や社会的リスクを引き起こす可能性があるため，翻訳評価指標には単語レベルの誤りに対する頑健な誤り検出能力が求められる．本研究では，翻訳誤りの中でも固有表現および数値の誤りに着目し，その誤り検出性能の頑健性を評価する．具体的には，対訳コーパスを利用して大規模言語モデル（LLM）により翻訳文を生成し，数値や固有表現を書き換えた擬似誤訳文を自動的に作成し，誤り単語に置換したトークンをBAD，それ以外をOKとする単語単位の誤訳検出用データセットを構築した．構築したデータセットを用いて，ニューラルベースの翻訳評価指標XCOMET [1]に対して，誤り検出性能を，文レベルおよびトークンレベルの両面から検証した．金融ドメインの英日翻訳コーパスTimely Disclosure Documents Corpus (TDDC) [2]において評価した結果，XCOMETは誤りを含まないトークンまで誤ってBADと判定する傾向が強く，特に文頭において誤判定が多発していることが判明した．これにより，XCOMETは一部の誤訳には高い感度を示すが，エラー位置の正確な特定や局所的な過検出の制御に課題を残していることが明らかとなった．本研究の分析は，翻訳評価における単語誤りへの耐性と限界を明示し，今後の指標改善に向けた基盤的知見を提供する．},
 title = {誤り単語の混入による単語単位翻訳誤り検出の頑健性評価},
 year = {2025}
}