WEKO3
アイテム
機械学習による近代文語文への濁点の自動付与
https://ipsj.ixsq.nii.ac.jp/records/74033
https://ipsj.ixsq.nii.ac.jp/records/74033986b501a-8dda-4bfd-bbea-dd6b3560daa5
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2011 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2011-05-09 | |||||||
タイトル | ||||||||
タイトル | 機械学習による近代文語文への濁点の自動付与 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | A Machine Learning Approach to Automatic Labeling of Voiced Consonants for Modern Japanese Literary Text | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | 学生セッション(1) | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
奈良先端科学技術大学院大学 | ||||||||
著者所属 | ||||||||
奈良先端科学技術大学院大学 | ||||||||
著者所属 | ||||||||
国立国語研究所 | ||||||||
著者所属 | ||||||||
奈良先端科学技術大学院大学 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Nara Institute of Science and Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Nara Institute of Science and Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
National Institute for Japanese Language and Linguistics | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Nara Institute of Science and Technology | ||||||||
著者名 |
岡, 照晃
× 岡, 照晃
|
|||||||
著者名(英) |
Teruaki, Oka
× Teruaki, Oka
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 現代日本語のように,濁音を仮名で表記する際に必ず濁点を用いる習慣が定着したのは明治時代以降のことで,明治期の文献の中では濁音が期待される文字に濁点のない濁点無表記の場合が多い.本論文では,濁点無表記の濁音仮名文字を識別し,自動で濁点を補う手法について述べる.我々は,判定点の文字が濁点無表記文字か否かを決定する2値分類問題として定式化を行った.提案手法では,周辺文字列の情報のみを用いて点推定を行う.オンライン学習を採用し,大規模な『太陽コーパス』から学習を行なった.これにより提案手法は,『国民之友』において96.016%の精度と98.283%の再現率を達成した. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | The present-day Japanese use of voiced consonant mark had established in Meiji Era. Thus, modern Japanese literary text written in Meiji Era often lacks compulsory voiced consonant marks. In this paper, we propose an approach to automatic labeling of voiced consonants for modern Japanese literary language. We formulate the task of labeling voiced consonants into binary classification problem. Our method uses as its feature set only surface information about the surrounding character strings with pointwise prediction. We use an online learning method for exploiting large datasets from Taiyo Corpus. We achieve 96.016% precision and 98.283% recall on the Kokumin_no_tomo Corpus. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10115061 | |||||||
書誌情報 |
研究報告自然言語処理(NL) 巻 2011-NL-201, 号 6, p. 1-8, 発行日 2011-05-09 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |