Item type |
SIG Technical Reports(1) |
公開日 |
2017-10-17 |
タイトル |
|
|
タイトル |
サブワードユニットを用いたニューラル機械翻訳における形態素情報の効果 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Effect of Linguistic information in Nueral Machine Translation |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
機械翻訳(1) |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
豊橋技術科学大学情報・知能工学専攻 |
著者所属 |
|
|
|
豊橋技術科学大学情報メディア基盤センター |
著者名 |
中村, 尚道
井佐原, 均
|
著者名(英) |
Naomichi, Nakamura
Hitoshi, Isahara
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
深層学習は自然言語処理などの様々な分野において,それまでの研究を上回る成果を出している.機械翻訳分野においても,既存の統計的機械翻訳より高い性能を得られることが報告されている.しかしながら,ニューラル機械翻訳は大量のコーパスと高い計算コストを必要とする.計算コストを削減するために,既存研究では語彙内の低頻度な語句を記号やタグなどに置換する手法が主に用いられている.しかしながら,この手法は文の意味を曖昧にし,翻訳の性能を低下させることも報告されている.この問題を解決するためにバイト対符号化や Wordpiece Model などの手法を用いたサブワードユニットが提案されている.これらの手法は予め指定された語彙数から語彙を作成できるため,意味を曖昧にすることなく文を分割することができる.また,これらの手法は文を意味を持たないトークンに分解するため,入力列はトークンの集合となる.これはニューラル機械翻訳と相性が良く,翻訳精度を向上させることが報告されている.この結果から,ニューラル機械翻訳において言語学的な情報は必ずしも必要では無いとも考えられるが,我々はサブワードユニットに対して形態素情報を付与することで,翻訳精度が向上することを示した.サブワードユニットに対しても言語学的な情報が有用といえる. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10115061 |
書誌情報 |
研究報告自然言語処理(NL)
巻 2017-NL-233,
号 3,
p. 1-7,
発行日 2017-10-17
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8779 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |