| Item type |
SIG Technical Reports(1) |
| 公開日 |
2016-12-14 |
| タイトル |
|
|
タイトル |
単語対応を利用した欠落語の投射による機械翻訳向きオラクル入力文の生成 |
| タイトル |
|
|
言語 |
en |
|
タイトル |
Generating Oracle Sentence by projecting unaligned words from target to source for Machine translation |
| 言語 |
|
|
言語 |
jpn |
| キーワード |
|
|
主題Scheme |
Other |
|
主題 |
言語解析・文脈処理 |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
| 著者所属 |
|
|
|
長岡技術科学大学 |
| 著者所属 |
|
|
|
NTTコミュニケーション科学基礎研究所 |
| 著者所属 |
|
|
|
長岡技術科学大学 |
| 著者所属(英) |
|
|
|
en |
|
|
Nagaoka University of Technology |
| 著者所属(英) |
|
|
|
en |
|
|
NTT Communication Science Laboratories, NTT Corporation |
| 著者所属(英) |
|
|
|
en |
|
|
Nagaoka University of Technology |
| 著者名 |
竹野, 峻輔
永田, 昌明
山本, 和英
|
| 著者名(英) |
Shunsuke, Takeno
Masaaki, Nagata
Kazuhide, Yamamoto
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
ある言語対の翻訳を考えたとき目的言語側で単語対応がつかない語というものが存在する.露英翻訳のおける英語の冠詞や日英翻訳における欠落主語の問題など,このような語は機械翻訳を取り扱う上で問題となる.これらの語は,明示的な手がかり無しに予測を行う必要がある.本論において,我々はこのような欠落語の同定手法および目的言語の文から原言語に投射を行う手法について提案を行う.手法は言語対に依存せずコーパスから動的に決定される.この手法により,これまで先行研究で行われてきた空範疇や冠詞生成のデータセットが作成可能になる.またこのデータセットの作成により,これら欠落語の翻訳における影響度を予め推測することができる.本論では,IWSLT 2005 の日英翻訳タスクにおいて提案手法を適応したところ欠落語の予測による改善の見込みが非常に大きいことが判明した欠落語が投射されたオラクル原言語文を入力に用いることで,BLEU においてフレーズベース統計的機械翻訳システムで 30.9 から 37.3,ニューラル機械翻訳システムにおいては 18.0 から 28.3 の改善が見られた. |
| 論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
Unaligned words in target language are problematic in machine translation. If English is the target language, Japanese often omits subject while Russian lacks articles. They must be generated from nothing (NULL or empty word). In this paper, we propose a language independent method for automatically identifying unaligned words in target sentence and projecting them to source sentence by using a pair of bilingual sentences. It can be used to create an oracle of preprocessing for machine translation such as empty category detection and determiner generation. We applied the proposed method to Japanese to English translation task of IWSLT 2005 dataset (about 20,000 sentences), and find that there is much room for improvement in those preprocessing that project unaligned (missing) words to source sentence. By using oracle sentences as input, translation accuracy is improved from 30.9 to 37.3 BLEU point in phrase-based machine translation and from 18.0 to 28.3 BLEU point in neural machine translation. |
| 書誌情報 |
研究報告自然言語処理(NL)
巻 2016-NL-229,
号 24,
p. 1-6,
発行日 2016-12-14
|
| ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8779 |
| Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |