Item type |
SIG Technical Reports(1) |
公開日 |
2014-12-09 |
タイトル |
|
|
タイトル |
上層句情報の利用と学習データの選別による母語推定の精度向上 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Improved Native Language Identification with Upper Phrase Information and Training Data Selection |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
新たな試み・思考 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
早稲田大学大学院基幹理工学研究科 |
著者所属 |
|
|
|
早稲田大学大学院基幹理工学研究科 |
著者所属 |
|
|
|
早稲田大学理工学術院/国立情報学研究所 |
著者名 |
田中, 正浩
王, 瀾
山名, 早人
|
著者名(英) |
Masahiro, Tanaka
Lan, Wang
Hayato, Yamana
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
本稿では,英語文章を対象とした母語推定 (Native Language Identification),すなわち英語文章執筆者の母語推定における推定精度向上のための手法として,i) 上層句情報の利用,ii) 学習データからの外れ値削除手法を提案する.2005 年から始められた母語推定タスクは著者の属性推定タスクの一つであり,第二言語習得など多くの応用先があるとされる.2013 年には NLI Shared Task 2013 が行われるなど,近年盛んに研究されている.本提案手法を NLI Shared Task 2013 と同一のデータセットを用いて評価を行った結果,2014 年の最高精度である 85.3%を超える 85.6%の精度を達成し,提案手法の有効性を確認した. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
Native Language Identification, the task of identifying the native language (L1) of a writer based solely on a sample of his/her writing in non-native language (L2), is one of the authorship attribution problem. In this paper, we propose i) “upper phrase information” as a new feature, ii) discarding essay data which seem to be outliers from the training dataset. NLI is able to applicable to many other NLP tasks such as Second Language Acquisition. From 2005, many researchers have approached this task in different ways. Combining all the proposed techniques and existing methods, our system archives 85.6% accuracy on the NLI Shared Task 2014 data. To the best of our knowledge, this is a state-of-the-art accuracy in the NLI tasks. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10115061 |
書誌情報 |
研究報告自然言語処理(NL)
巻 2014-NL-219,
号 21,
p. 1-6,
発行日 2014-12-09
|
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |