ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. シンポジウム
  2. シンポジウムシリーズ
  3. じんもんこんシンポジウム
  4. 2012

未整備の歴史的文献への濁点の自動付与アプリケーション

https://ipsj.ixsq.nii.ac.jp/records/87035
https://ipsj.ixsq.nii.ac.jp/records/87035
8f1af824-6e4f-4a39-b6c6-cc6755ca6cb1
名前 / ファイル ライセンス アクション
IPSJ-S-CH2012025.pdf IPSJ-S-CH2012025.pdf (401.6 kB)
Copyright (c) 2012 by the Information Processing Society of Japan
オープンアクセス
Item type Symposium(1)
公開日 2012-11-10
タイトル
タイトル 未整備の歴史的文献への濁点の自動付与アプリケーション
タイトル
言語 en
タイトル Application of Automatic Labeling of Dakuten for Raw Historical Text
言語
言語 jpn
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_5794
資源タイプ conference paper
著者所属
奈良先端科学技術大学院大学
著者所属
奈良先端科学技術大学院大学
著者所属
奈良先端科学技術大学院大学/人間文化研究機構国立国語研究所
著者所属
奈良先端科学技術大学院大学
著者所属(英)
en
Nara Institute of Science and Technology
著者所属(英)
en
Nara Institute of Science and Technology
著者所属(英)
en
Nara Institute of Science and Technology/National Institute for Japanese Language and Linguistics
著者所属(英)
en
Nara Institute of Science and Technology
著者名 岡, 照晃 小町, 守 小木曽, 智信 松本, 裕治

× 岡, 照晃 小町, 守 小木曽, 智信 松本, 裕治

岡, 照晃
小町, 守
小木曽, 智信
松本, 裕治

Search repository
著者名(英) Teruaki, Oka Mamoru, Komachi Toshinobu, Ogiso Yuji, Matsumoto

× Teruaki, Oka Mamoru, Komachi Toshinobu, Ogiso Yuji, Matsumoto

en Teruaki, Oka
Mamoru, Komachi
Toshinobu, Ogiso
Yuji, Matsumoto

Search repository
論文抄録
内容記述タイプ Other
内容記述 生の歴史的文献の中には,濁点が期待されるのに濁点の付いていない,濁点無表記の文字が多く含まれている.濁点無表記文字は可読性・検索性を下げるため,歴史コーパス整備の際には濁点付与が行われる.しかし,濁点付与は専門家にしか行えないため,作業人員の確保が大きな課題となっている.また,作業対象が膨大であるため,作業を完了するまでにも時間がかかる.そこで,我々は統計的機械学習を使った濁点自動付与アプリケーションを開発した.このアプリケーションは太陽コーパスにおける濁点の統計データに基づき,濁点無表記の文字を含んだ近代文語論説文へ自動で濁点付与を行うことができる.本アプリケーションを用い,近代の雑誌「国民之友」に適合率約96%,再現率約98%の濁点付与を達成した.本論文では,アプリケーションに実装した手法と,アプリケーションの仕様について概説する.
論文抄録(英)
内容記述タイプ Other
内容記述 Raw historical texts often include mark-lacking characters, which lack compulsory dakuten. Since mark-lacking characters degrade readability and retrievability, dakutens are annotated when creating a historical corpus. However, since only experts can perform the labeling procedure for historical texts, getting annotators is a large challenge. Also, it is time-consuming to conduct annotation for large-scale historical materials. Therefore, we developed an application of automatic labeling of dakuten for marklacking characters by using a machine learning approach. Our application labels dakuten automatically for raw texts written in near-modern literary style of Japanese based on the statistics of dakuten in Taiyo corpus. We used this application, and achieved about 96% precision and 98% recall on a near-modern Japanese magazine, Kokumin-no-Tomo. In this paper, we abstract our implemented method and specification of the application.
書誌情報 じんもんこん2012論文集

巻 2012, 号 7, p. 191-198, 発行日 2012-11-10
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-21 17:28:12.348170
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3