WEKO3
アイテム
n - gramとOCRによる定型表現がある古文書の文字の推定
https://ipsj.ixsq.nii.ac.jp/records/55126
https://ipsj.ixsq.nii.ac.jp/records/551264a4b8770-d147-41db-8768-143f735a81fd
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2003 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2003-05-30 | |||||||
タイトル | ||||||||
タイトル | n - gramとOCRによる定型表現がある古文書の文字の推定 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | An Estimation Method of Unreadable Historical Character for Manuscripts in Fixed Forms using n - gram and OCR | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
国際日本文化研究センター・研究部 | ||||||||
著者所属 | ||||||||
大阪市立大学・学術情報総合センター | ||||||||
著者所属(英) | ||||||||
en | ||||||||
International Research Center for Japanese Studies | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Media Center, Osaka City University | ||||||||
著者名 |
山田, 奨治
× 山田, 奨治
|
|||||||
著者名(英) |
Shoji, Yamada
× Shoji, Yamada
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 古文書の翻刻作業中に遭遇する不可読文字について,江戸時代の借金証文類に対象を限定して,前後の文字のn-gram情報と不可読文字画像のOCR結果を併用して正解候補を求める手法を提案する.n-gramはn=2とn=3を併用する方法を,OCRは改良型方向線素特徴量とユークリッド距離最短法による認識を採用した.250 000文字を超える古文書文字データと27 000文字を超える古文書文字画像データを電子化して手法の検証をおこない,提案手法を翻刻支援システムに適用した場合の性能と有用性について考察した.提案手法により3 509文字の試験データの81.93%について,正解の平均順位が4.69位,20位以内に正解が得られる割合が79.77%という結果が得られた.古文書の全自動読み取りではなく,あくまで人間の作業を支援するシステムのための方法として提案手法は有効であり,歴史学研究に対する情報処理学のあらたな適用分野としての発展が期待される. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | We propose a method of getting some candidates for unreadable characters, which appear in reading historical manuscripts, using the n-gram information of the character sequences and the OCR results of the characters, with restricting the object to written acknowledgements of debts in Edo period. We used n=2 and n=3 together for the n-gram and the improved directional element feature and the minimized Euclid distance for the OCR. We examined the performance and the effectiveness of the proposed method using over 250,000 characters and over 27,000 character image data, which are digitized by our project. Using the proposed method, the correct answers appear at 4.69th of average ranking and at 79.77 percents within top 20 candidates for 81.39 percents of 3,509 test samples. The proposed method is effective not for the automatic reading of historical manuscripts but for the supporting system for human's work, and has possibility to extend the application area of information processing to historical studies. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN1010060X | |||||||
書誌情報 |
情報処理学会研究報告人文科学とコンピュータ(CH) 巻 2003, 号 59(2003-CH-058), p. 17-24, 発行日 2003-05-30 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |