WEKO3
アイテム
日本語Twitter文書を対象とした系列ラベリングによる表記正規化
https://ipsj.ixsq.nii.ac.jp/records/178802
https://ipsj.ixsq.nii.ac.jp/records/1788026a6b383c-3206-44f9-a28a-c6c82addfb10
| 名前 / ファイル | ライセンス | アクション |
|---|---|---|
|
|
Copyright (c) 2017 by the Information Processing Society of Japan
|
|
| オープンアクセス | ||
| Item type | SIG Technical Reports(1) | |||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 公開日 | 2017-05-08 | |||||||||||
| タイトル | ||||||||||||
| タイトル | 日本語Twitter文書を対象とした系列ラベリングによる表記正規化 | |||||||||||
| 言語 | ||||||||||||
| 言語 | jpn | |||||||||||
| 資源タイプ | ||||||||||||
| 資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||||||
| 資源タイプ | technical report | |||||||||||
| 著者所属 | ||||||||||||
| 首都大学東京 | ||||||||||||
| 著者所属 | ||||||||||||
| 首都大学東京 | ||||||||||||
| 著者所属 | ||||||||||||
| 首都大学東京 | ||||||||||||
| 著者名 |
大崎, 彩葉
× 大崎, 彩葉
× 北川, 善彬
× 小町, 守
|
|||||||||||
| 論文抄録 | ||||||||||||
| 内容記述タイプ | Other | |||||||||||
| 内容記述 | 本研究では,Twitter 上で見られる口語的表現やタイピングミス等による一般的でない表記 (以下 「崩れた表記」 と呼ぶ) による形態素解析精度低下を改善するためのアプローチとして,崩れた表記の正規化を試みる.英語のようなスペース区切りの言語の正規化では単語単位で崩れた表現を置き換える手法が考えられるが,日本語のようなわかち書きが必要な言語では,処理対象に崩れた表記が含まれることで単語境界の検出に誤りが生じ,未知語が多く出現するため,単語情報が利用しづらく,単語単位での置き換えは適さない.また,Twitter 文書から作られた大規模なアノテーションデータは入手が困難であるため,大量の教師データを必要とするシステムを使ってこの問題を解くことは難しい.そこで,本研究では文字単位の系列ラベリング問題として正規化を解く.系列ラベリング問題として正規化だけを解くことで,形態素解析と表記正規化を同時に学習するような手法に比べ小規模のデータでの学習が可能になる.また,正規化された表記が付与された実際の Twitter 文書のデータを使って学習,実験を行い,Twitter 文書を対象とするのに適した正規化を学習できることを示す.そうして正規化処理を施した文書と,正規化前の文書,人手で正規化を施した文書を形態素解析にかけて比較し,崩れた表記やその正規化結果が形態素解析の精度に与える影響を分析する. | |||||||||||
| 書誌レコードID | ||||||||||||
| 収録物識別子タイプ | NCID | |||||||||||
| 収録物識別子 | AN10115061 | |||||||||||
| 書誌情報 |
研究報告自然言語処理(NL) 巻 2017-NL-231, 号 12, p. 1-6, 発行日 2017-05-08 |
|||||||||||
| ISSN | ||||||||||||
| 収録物識別子タイプ | ISSN | |||||||||||
| 収録物識別子 | 2188-8779 | |||||||||||
| Notice | ||||||||||||
| SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||||||
| 出版者 | ||||||||||||
| 言語 | ja | |||||||||||
| 出版者 | 情報処理学会 | |||||||||||