@inproceedings{oai:ipsj.ixsq.nii.ac.jp:00087035, author = {岡, 照晃 and 小町, 守 and 小木曽, 智信 and 松本, 裕治 and Teruaki, Oka and Mamoru, Komachi and Toshinobu, Ogiso and Yuji, Matsumoto}, book = {じんもんこん2012論文集}, issue = {7}, month = {Nov}, note = {生の歴史的文献の中には,濁点が期待されるのに濁点の付いていない,濁点無表記の文字が多く含まれている.濁点無表記文字は可読性・検索性を下げるため,歴史コーパス整備の際には濁点付与が行われる.しかし,濁点付与は専門家にしか行えないため,作業人員の確保が大きな課題となっている.また,作業対象が膨大であるため,作業を完了するまでにも時間がかかる.そこで,我々は統計的機械学習を使った濁点自動付与アプリケーションを開発した.このアプリケーションは太陽コーパスにおける濁点の統計データに基づき,濁点無表記の文字を含んだ近代文語論説文へ自動で濁点付与を行うことができる.本アプリケーションを用い,近代の雑誌「国民之友」に適合率約96%,再現率約98%の濁点付与を達成した.本論文では,アプリケーションに実装した手法と,アプリケーションの仕様について概説する., Raw historical texts often include mark-lacking characters, which lack compulsory dakuten. Since mark-lacking characters degrade readability and retrievability, dakutens are annotated when creating a historical corpus. However, since only experts can perform the labeling procedure for historical texts, getting annotators is a large challenge. Also, it is time-consuming to conduct annotation for large-scale historical materials. Therefore, we developed an application of automatic labeling of dakuten for marklacking characters by using a machine learning approach. Our application labels dakuten automatically for raw texts written in near-modern literary style of Japanese based on the statistics of dakuten in Taiyo corpus. We used this application, and achieved about 96% precision and 98% recall on a near-modern Japanese magazine, Kokumin-no-Tomo. In this paper, we abstract our implemented method and specification of the application.}, pages = {191--198}, publisher = {情報処理学会}, title = {未整備の歴史的文献への濁点の自動付与アプリケーション}, volume = {2012}, year = {2012} }