Item type |
SIG Technical Reports(1) |
公開日 |
2020-06-26 |
タイトル |
|
|
タイトル |
機械翻訳を用いた自然言語推論データセットの多言語化 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Multilingualization of a Natural Language Inference Dataset Using Machine Translation |
言語 |
|
|
言語 |
jpn |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
京都大学 |
著者所属 |
|
|
|
京都大学/現在,早稲田大学 |
著者所属 |
|
|
|
京都大学 |
著者所属(英) |
|
|
|
en |
|
|
Kyoto University |
著者所属(英) |
|
|
|
en |
|
|
Kyoto University / Presently with Waseda University |
著者所属(英) |
|
|
|
en |
|
|
Kyoto University |
著者名 |
吉越, 卓見
河原, 大輔
黒橋, 禎夫
|
著者名(英) |
Takumi, Yoshikoshi
Daisuke, Kawahara
Sadao, Kurohashi
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
言語を理解するには,字義通りの意味を捉えるだけでなく,それが含意する意味を推論することが不可欠である.このような推論能力を計算機に与えるために,自然言語推論(NLI)の研究が盛んに行われている.NLI は,前提が与えられたときに,仮説が成立する(含意),成立しない(矛盾),判別できない(中立)かを判断するタスクある.自然言語推論を計算機で解くには数十万規模の前提・仮説ペアのデータセットが必要となるが,これまでに構築された自然言語推論データセットは言語間でその規模に大きな隔たりがある.この状況は,自然言語推論の研究の進展を妨げる要因となっている.このような背景から,本研究では,機械翻訳に基づく,安価かつ高速な自然言語推論データセットの構築手法を提案する.提案する構築手法は二つのステップからなる.まず,既存の大規模な自然言語推論データセットを機械翻訳によって目的の言語に変換する.次に,翻訳によって生じるノイズを軽減するため,フィルタリングを行う.フィルタリングの手法として,評価データと学習データに対し,それぞれ別のアプローチをとる.評価データは,正確さが重要となるため,クラウドソーシングを用い,人手で検証する.学習データは,大規模な自然言語推論データセットでは数十万ペアの問題が存在するため,翻訳文の検証を自動的に行い,効率的にデータをフィルタリングする.本研究では,機械翻訳を用いた逆翻訳による手法と,言語モデルによる手法の二つを提案する.本研究では,SNLI を翻訳対象とし,日本語を対象言語として実験を行った.その結果,評価データが 3,917 ペア,学習データが 53 万ペアのデータセットを構築した.このデータセットは BERT に基づく自然言語推論モデルによって 93.0 %の精度で解くことが可能である. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
To understand natural language text, it is essential not only to capture the literal meaning but also to infer the meaning it implies. In order to give such inference ability to computers, research on natural language inference (NLI) has been actively conducted. NLI is a task of determining whether a hypothesis holds (entailment), does not hold (contradiction), or cannot be determined (neutral) when a hypothesis is given. In this study, we propose a low-cost and rapid construction method of NLI datasets based on machine translation. The proposed construction method consists of two steps. First, an NLI dataset is translated into a target language by machine translation. Next, filtering is performed to reduce noise caused by translation. As filtering methods, we propose different approaches for evaluation and training data. Quality is important for evaluation data to accurately measure accuracy based on it. Therefore, filtering is performed manually using crowdsourcing. This manual filtering judges that a translated sentence is a natural sentence in the target language, and that the original NLI relation is correct. Since training data consists of hundreds of thousands of problems in a large NLI dataset, we propose two methods: a back translation-based method using machine translation and a language model-based method. In this study, we conducted an experiment with SNLI as the translation target and Japanese as the target language. As a result, we succeeded in constructing an NLI dataset with 3,917 pairs of evaluation data and 550,000 pairs of training data. A BERT-based NLI model traind on the obtained dataset achieved an accuracy of 93.0%. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10115061 |
書誌情報 |
研究報告自然言語処理(NL)
巻 2020-NL-244,
号 6,
p. 1-8,
発行日 2020-06-26
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8779 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |