WEKO3
アイテム
仮名漢字変換ログを用いた単語分割・読み推定の精度向上
https://ipsj.ixsq.nii.ac.jp/records/107443
https://ipsj.ixsq.nii.ac.jp/records/10744392f1eba7-39b3-49bc-a67d-f8bf8f78c7ec
| 名前 / ファイル | ライセンス | アクション |
|---|---|---|
|
|
Copyright (c) 2014 by the Information Processing Society of Japan
|
|
| オープンアクセス | ||
| Item type | SIG Technical Reports(1) | |||||||||
|---|---|---|---|---|---|---|---|---|---|---|
| 公開日 | 2014-12-09 | |||||||||
| タイトル | ||||||||||
| タイトル | 仮名漢字変換ログを用いた単語分割・読み推定の精度向上 | |||||||||
| 言語 | ||||||||||
| 言語 | jpn | |||||||||
| キーワード | ||||||||||
| 主題Scheme | Other | |||||||||
| 主題 | 応用処理1 | |||||||||
| 資源タイプ | ||||||||||
| 資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||||
| 資源タイプ | technical report | |||||||||
| 著者所属 | ||||||||||
| 京都大学情報学研究科 | ||||||||||
| 著者所属 | ||||||||||
| 京都大学学術情報メディアセンター | ||||||||||
| 著者名 |
高橋, 文彦
× 高橋, 文彦
× 森, 信介
|
|||||||||
| 論文抄録 | ||||||||||
| 内容記述タイプ | Other | |||||||||
| 内容記述 | 単語分割・読み推定の課題として,未知語の多いテキストを頑健に解析できないという問題がある.本研究ではこのような問題に対処するために,文章を作成するときに用いる仮名漢字変換のログを参照する方法を提案する.仮名漢字変換ログとは,インプットメソッドで文章を作成するときの履歴であり,単語境界や入力記号列の情報を含んでいるため,アノテーションデータと見なすことができる.一方で変換ログは,誤った確定結果などを含むためノイズありのアノテーションデータだといえる.本論文では,ノイズを含んだアノテーションデータを学習データに利用する 3 つの方法を提案する.実験では,Twitter を題材として提案手法を評価し,単語分割・読み推定ともに精度が向上することを確認し,提案手法の有効性を示した. | |||||||||
| 書誌レコードID | ||||||||||
| 収録物識別子タイプ | NCID | |||||||||
| 収録物識別子 | AN10115061 | |||||||||
| 書誌情報 |
研究報告自然言語処理(NL) 巻 2014-NL-219, 号 15, p. 1-10, 発行日 2014-12-09 |
|||||||||
| Notice | ||||||||||
| SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||||
| 出版者 | ||||||||||
| 言語 | ja | |||||||||
| 出版者 | 情報処理学会 | |||||||||