WEKO3
アイテム
未整備の歴史的文献への濁点の自動付与アプリケーション
https://ipsj.ixsq.nii.ac.jp/records/87035
https://ipsj.ixsq.nii.ac.jp/records/870358f1af824-6e4f-4a39-b6c6-cc6755ca6cb1
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2012 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | Symposium(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2012-11-10 | |||||||
タイトル | ||||||||
タイトル | 未整備の歴史的文献への濁点の自動付与アプリケーション | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Application of Automatic Labeling of Dakuten for Raw Historical Text | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_5794 | |||||||
資源タイプ | conference paper | |||||||
著者所属 | ||||||||
奈良先端科学技術大学院大学 | ||||||||
著者所属 | ||||||||
奈良先端科学技術大学院大学 | ||||||||
著者所属 | ||||||||
奈良先端科学技術大学院大学/人間文化研究機構国立国語研究所 | ||||||||
著者所属 | ||||||||
奈良先端科学技術大学院大学 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Nara Institute of Science and Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Nara Institute of Science and Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Nara Institute of Science and Technology/National Institute for Japanese Language and Linguistics | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Nara Institute of Science and Technology | ||||||||
著者名 |
岡, 照晃
小町, 守
小木曽, 智信
松本, 裕治
× 岡, 照晃 小町, 守 小木曽, 智信 松本, 裕治
|
|||||||
著者名(英) |
Teruaki, Oka
Mamoru, Komachi
Toshinobu, Ogiso
Yuji, Matsumoto
× Teruaki, Oka Mamoru, Komachi Toshinobu, Ogiso Yuji, Matsumoto
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 生の歴史的文献の中には,濁点が期待されるのに濁点の付いていない,濁点無表記の文字が多く含まれている.濁点無表記文字は可読性・検索性を下げるため,歴史コーパス整備の際には濁点付与が行われる.しかし,濁点付与は専門家にしか行えないため,作業人員の確保が大きな課題となっている.また,作業対象が膨大であるため,作業を完了するまでにも時間がかかる.そこで,我々は統計的機械学習を使った濁点自動付与アプリケーションを開発した.このアプリケーションは太陽コーパスにおける濁点の統計データに基づき,濁点無表記の文字を含んだ近代文語論説文へ自動で濁点付与を行うことができる.本アプリケーションを用い,近代の雑誌「国民之友」に適合率約96%,再現率約98%の濁点付与を達成した.本論文では,アプリケーションに実装した手法と,アプリケーションの仕様について概説する. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | Raw historical texts often include mark-lacking characters, which lack compulsory dakuten. Since mark-lacking characters degrade readability and retrievability, dakutens are annotated when creating a historical corpus. However, since only experts can perform the labeling procedure for historical texts, getting annotators is a large challenge. Also, it is time-consuming to conduct annotation for large-scale historical materials. Therefore, we developed an application of automatic labeling of dakuten for marklacking characters by using a machine learning approach. Our application labels dakuten automatically for raw texts written in near-modern literary style of Japanese based on the statistics of dakuten in Taiyo corpus. We used this application, and achieved about 96% precision and 98% recall on a near-modern Japanese magazine, Kokumin-no-Tomo. In this paper, we abstract our implemented method and specification of the application. | |||||||
書誌情報 |
じんもんこん2012論文集 巻 2012, 号 7, p. 191-198, 発行日 2012-11-10 |
|||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |