誤り単語の混入による単語単位翻訳誤り検出の頑健性評価

岩國,巧; 出口,祥之; 永田,昌明; 上垣外,英剛; 渡辺,太郎

WEKO3

lat lon distance

[[sub_check.contents]]

[[sub_radio.contents]]

Field does not validate

[[sub_attr.contents]]　

インデックスツリー

アイテム

誤り単語の混入による単語単位翻訳誤り検出の頑健性評価

https://ipsj.ixsq.nii.ac.jp/records/2002812

名前 / ファイル	ライセンス	アクション
IPSJ-NL25264004.pdf (243.3 KB) 2027年6月29日からダウンロード可能です。	Copyright (c) 2025 by the Information Processing Society of Japan
非会員：¥660, IPSJ:学会員：¥330, NL:会員：¥0, DLIB:会員：¥0

Item type

SIG Technical Reports(1)

公開日

2025-06-29

タイトル

言語

タイトル

誤り単語の混入による単語単位翻訳誤り検出の頑健性評価

言語

jpn

キーワード

主題Scheme

Other

主題

翻訳

資源タイプ

資源タイプ識別子

http://purl.org/coar/resource_type/c_18gh

資源タイプ

technical report

著者所属

奈良先端科学技術大学院大学

著者所属

NTTコミュニケーション科学基礎研究所

著者所属

NTTコミュニケーション科学基礎研究所

著者所属

奈良先端科学技術大学院大学

著者所属

奈良先端科学技術大学院大学

著者所属(英)

NAIST

著者所属(英)

NAIST

著者所属(英)

NAIST

著者名

岩國,巧
出口,祥之
永田,昌明
上垣外,英剛
渡辺,太郎

論文抄録

内容記述タイプ

Other

内容記述

機械翻訳の発展により，翻訳精度や流暢さは飛躍的に向上したが，依然として固有表現や数値といった重要な単語の誤訳は深刻な問題である．特に金融や医療などの専門領域では，こうした誤訳が重大な経済的損失や社会的リスクを引き起こす可能性があるため，翻訳評価指標には単語レベルの誤りに対する頑健な誤り検出能力が求められる．本研究では，翻訳誤りの中でも固有表現および数値の誤りに着目し，その誤り検出性能の頑健性を評価する．具体的には，対訳コーパスを利用して大規模言語モデル（LLM）により翻訳文を生成し，数値や固有表現を書き換えた擬似誤訳文を自動的に作成し，誤り単語に置換したトークンをBAD，それ以外をOKとする単語単位の誤訳検出用データセットを構築した．構築したデータセットを用いて，ニューラルベースの翻訳評価指標XCOMET [1]に対して，誤り検出性能を，文レベルおよびトークンレベルの両面から検証した．金融ドメインの英日翻訳コーパスTimely Disclosure Documents Corpus (TDDC) [2]において評価した結果，XCOMETは誤りを含まないトークンまで誤ってBADと判定する傾向が強く，特に文頭において誤判定が多発していることが判明した．これにより，XCOMETは一部の誤訳には高い感度を示すが，エラー位置の正確な特定や局所的な過検出の制御に課題を残していることが明らかとなった．本研究の分析は，翻訳評価における単語誤りへの耐性と限界を明示し，今後の指標改善に向けた基盤的知見を提供する．

書誌レコードID

収録物識別子タイプ

NCID

収録物識別子

AN10115061

書誌情報

研究報告自然言語処理（NL）

巻 2025-NL-264, 号 4, p. 1-8, 発行日 2025-06-29

ISSN

収録物識別子タイプ

ISSN

収録物識別子

2188-8779

Notice

SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.

出版者

言語

出版者

情報処理学会

戻る

views

See details

	Views

Versions

Ver.1

2025-06-19 06:44:30.427058

Show All versions

Cite as

エクスポート

OAI-PMH

JPCOAR
DublinCore
DDI

Other Formats

JSON
BIBTEX

インデックスリンク

インデックスツリー

アイテム

誤り単語の混入による単語単位翻訳誤り検出の頑健性評価

× 岩國,巧

× 出口,祥之

× 永田,昌明

× 上垣外,英剛

× 渡辺,太郎

Versions

Share

Cite as

エクスポート