WEKO3
アイテム
共起情報と統計的形態素解析によるOCR誤り訂正
https://ipsj.ixsq.nii.ac.jp/records/48934
https://ipsj.ixsq.nii.ac.jp/records/4893409bf2fd7-e90f-43f6-b094-84949a125fbd
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 1997 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 1997-11-12 | |||||||
タイトル | ||||||||
タイトル | 共起情報と統計的形態素解析によるOCR誤り訂正 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | OCR Error Correction Using Stochastic Morphological Analyzer with Probabilistic Word Model | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
奈良先端科学技術大学院大学情報科学研究科 | ||||||||
著者所属 | ||||||||
奈良先端科学技術大学院大学情報科学研究科 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Information Science, Nara Institute of Science and Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Information Science, Nara Institute of Science and Technology | ||||||||
著者名 |
竹内, 孔一
× 竹内, 孔一
|
|||||||
著者名(英) |
Kouichi, Takeuchi
× Kouichi, Takeuchi
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 近年のインターネットの普及によりOCRによるテキストの電子化はますます重要な処理となってきた.OCRテキストの誤り訂正の研究は特に英語圏で進められて来たが,1) 日本語で英語のような単語間の明示的な区切りを用いないこと,2) 文字種が豊富であること,から英語圏で開発された方法を日本語にそのまま適応することはできない.一方,日本語に関する先行研究ではOCRの内部候補文字を用いたり,解析済みコーパスが必要なものがある.そこで,本研究ではOCRの文字候補を用いずに入力文字列を訂正するシステムを提案する.本システムは,新聞記事コーバスで学習した文字trigram,統計的形態素解析システム,単語bigram,単語trigram,単語共起の各モデルを使用する.ランダムに文字置換したテキストに対して誤り訂正を行った結果,テキストの改善が観測された. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | In recent years, OCR error correction is becoming more and more important technique for the purpose of convert printed texts into electronic texts on computers. OCR error correction of Japanese texts is more difficult than that of English texts, because 1) Japanese texts have no white space between the words and 2) Japanese texts are written in a far richer set of characters. This paper presents OCR error correction system which uses Stochastic morphological analyzer, character trigram, word bigram, word trigram, and word co-occurrence statistcs. These stochastic models are learned using a large newspaper text corpus. We apply our system to texts which included random character substitution and observe error corrections. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10115061 | |||||||
書誌情報 |
情報処理学会研究報告自然言語処理(NL) 巻 1997, 号 85(1997-NL-121), p. 17-24, 発行日 1997-11-12 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |