WEKO3
アイテム
文節文法を用いたイメージスキャナの読み取り結果の誤り検出
https://ipsj.ixsq.nii.ac.jp/records/125387
https://ipsj.ixsq.nii.ac.jp/records/1253878ec0b57a-1b4f-469c-9be1-3f8e4da90326
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
|
Item type | National Convention(1) | |||||
---|---|---|---|---|---|---|
公開日 | 1994-03-07 | |||||
タイトル | ||||||
タイトル | 文節文法を用いたイメージスキャナの読み取り結果の誤り検出 | |||||
タイトル | ||||||
言語 | en | |||||
タイトル | An Error Detection on an Intra-Phrase Grammar for Japanese Text Read by Image Scanner | |||||
言語 | ||||||
言語 | jpn | |||||
資源タイプ | ||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_5794 | |||||
資源タイプ | conference paper | |||||
著者所属 | ||||||
豊橋技術科学大学 | ||||||
著者所属 | ||||||
豊橋技術科学大学 | ||||||
著者所属(英) | ||||||
en | ||||||
Toyohashi Univ. of Tech. | ||||||
著者所属(英) | ||||||
en | ||||||
Toyohashi Univ. of Tech. | ||||||
論文抄録 | ||||||
内容記述タイプ | Other | |||||
内容記述 | 近年, イメージスキャナを用いた文字認識システム(以下, OCRとする)がいくつか商品化されている. これらのOCRは, 文字を一文字毎に切り出し, 正規化してパターンマッチングを行なっている. 文字認識の精度は商品や環境によりまちまちであるが, だいたい95∼98%を示している. この認識率はA4用紙1枚に1200文字程度書いてある文書を認識させた場合, 1枚あたり24∼60文字程度の誤りが生じることになる. OCRが出力する文字の誤りも最終的に人間が訂正して正しい文にするが, 誤りの出現に規則性がなく, 訂正作業の負担は大きい. この作業量を減少させるため, コンピュータ支援による文の誤りを検出するシステムが望まれている. 最近の日本語の誤り検出及び訂正に関する研究としては, [1, 2]などが挙げられる. これらの研究はいずれも、単語あるいは文字の単位の前後の接続確率を考慮し, 尤もらしい検出または訂正を行っている. このような手法は, 誤りの特徴がはっきりしている場合や, 誤り訂正の作業が数種の単語あるいは文字の選択に置き換えることができるのであれば, 非常に有効な手段である. しかしながら, 一般にOCRが出力する誤りには規則性がなく, またOCRから得られる情報を出力結果のテキストのみとしたため, 単語あるいは, 文字単位の接続確率を用いた手法は不向きであると考えられる. そこで, 本研究では何らかの文法を導入することにより, 大局的な制限をうまく利用する誤り検出手法について考察する. 今回は, 文節文法を用いた形態素解析を行うことで, 誤り検出をする手法について考察する. この手法は, 形態素解析の手法として知られている最小単語法に文節文法を組み込んだ手法で形態素解析を行い, 文節が成立するか否かを判定基準として誤り検出を行う. 本稿では, この手法に基づいたプログラムを作成し, 誤り検出に関する評価実験を行なったので, その結果について報告する. | |||||
書誌レコードID | ||||||
収録物識別子タイプ | NCID | |||||
収録物識別子 | AN00349328 | |||||
書誌情報 |
全国大会講演論文集 巻 第48回, 号 人工知能及び認知科学, p. 39-40, 発行日 1994-03-07 |
|||||
出版者 | ||||||
言語 | ja | |||||
出版者 | 情報処理学会 |