WEKO3
アイテム
形態素解析との同時最適化による歴史的資料の自動表記整理
https://ipsj.ixsq.nii.ac.jp/records/101197
https://ipsj.ixsq.nii.ac.jp/records/1011973d712f98-11fd-48c8-8734-d689f2fe0ba5
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2014 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2014-05-15 | |||||||
タイトル | ||||||||
タイトル | 形態素解析との同時最適化による歴史的資料の自動表記整理 | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | 自然言語解析 | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
奈良先端科学技術大学院大学 | ||||||||
著者所属 | ||||||||
奈良先端科学技術大学院大学 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Nara Institute of Science and Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Nara Institute of Science and Technology | ||||||||
著者名 |
岡照晃
× 岡照晃
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 日本語の歴史的資料の中では表記規範が確立していないための表記揺れが著しい.そういった表記揺れを含んだ文は現代人にとって読み辛く,資料をコーパス化した際の検索性も低い.そのため,歴史コーパスを整備する際には原文表記を整える作業 (表記整理) が実施される.しかしこの作業は人手のコストが非常に高い.そこで統計的機械学習を用いた自動表記整理として,単語辞書を用いた辞書ベースの手法と,周辺文字列の情報だけで表記整理を行う文字ベースの手法が提案されている.辞書ベースの手法は形態素解析と同時に表記整理を実施する.そのため表記整理時に単語境界や品詞の情報が利用できる.しかし学習に品詞タグ付きコーパスが必要であり,学習用コーパスが限られるという問題がある.一方,文字ベースの手法は学習に品詞タグ付きコーパスを必要としない.そのため学習用コーパスは辞書ベースの手法よりも多く確保できる.しかし表記整理時に単語境界や品詞の情報が使えないため,部分文字列にマッチする単語に引かれて誤った表記整理を行う問題がある.そこで本論文では,辞書ベースの手法と文字ベースの手法のそれぞれの欠点を互いの利点で補い合わせるために,2 つをハイブリッドした自動表記整理手法を提案する.提案手法は辞書ベースの表記整理と同様に形態素解析のフレームワークを利用するが,Augmented-Loss Training とよばれる学習アルゴリズムを採用することで,単語境界や品詞情報を持たない表記整理済みコーパスも学習に利用することができる.性能評価実験では,提案手法を用いることで,近代の雑誌 「太陽」 に対して F1 値 85.3 と,従来法 (F1 値:74.8) よりも高い精度で表記整理が行えることが分かった. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10115061 | |||||||
書誌情報 |
研究報告自然言語処理(NL) 巻 2014-NL-216, 号 8, p. 1-20, 発行日 2014-05-15 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |