WEKO3
アイテム
類似文字データベースとN-gramによる文字認識後処理
https://ipsj.ixsq.nii.ac.jp/records/132107
https://ipsj.ixsq.nii.ac.jp/records/1321078919cdf1-a2a0-4592-9fab-c6e72874fa64
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
|
Item type | National Convention(1) | |||||
---|---|---|---|---|---|---|
公開日 | 1997-09-24 | |||||
タイトル | ||||||
タイトル | 類似文字データベースとN-gramによる文字認識後処理 | |||||
タイトル | ||||||
言語 | en | |||||
タイトル | Postprocessing for character recognition based on N-gram model using similar character database | |||||
言語 | ||||||
言語 | jpn | |||||
資源タイプ | ||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_5794 | |||||
資源タイプ | conference paper | |||||
著者所属 | ||||||
岐阜大学工学部 | ||||||
著者所属 | ||||||
岐阜大学工学部 | ||||||
著者所属 | ||||||
岐阜大学工学部 | ||||||
著者所属 | ||||||
岐阜大学工学部 | ||||||
著者所属(英) | ||||||
en | ||||||
Faculty of Engineering, Gifu University | ||||||
著者所属(英) | ||||||
en | ||||||
Faculty of Engineering, Gifu University | ||||||
著者所属(英) | ||||||
en | ||||||
Faculty of Engineering, Gifu University | ||||||
著者所属(英) | ||||||
en | ||||||
Faculty of Engineering, Gifu University | ||||||
論文抄録 | ||||||
内容記述タイプ | Other | |||||
内容記述 | 市販のOCRの認識率は, カタログでは99%以上をうたっているが, 現実には印刷の品質が悪かったり, スキャナーでの読み取り条件が最適化されていないことのために, 95%程度にとどまっている。そこで, 何らかの言語処理を導入した後処理が必要となる。後処理方式の多くは, N-gram統計を用いたものが多いが, この場合, 文字候補の中に必ず正解文字が存在するという条件が付けられる。つまり, 文字候補の中に正解文字が存在しない場合は, 正解文が得られないことになる。また, 正解文字がN-gramのテキストデータベースに依存する為, 正しい文字を選び出さない事がある。そこで本研究では, 類似文字データベースを作成して, 候補の追加を行なう方法を提案する。すなわち, OCRの候補文字ラティスにtrigramモデルを用いたコスト最小法を適用し, 選ばれた最適パスの中で, ある閾値を越えた部分を誤りとして検出する。そして, その部分に類似文字データベースから新たに候補を補足して再度Ngramモデルを用いたコスト最小法を適用する。新聞記事をテストデータとして実験を行なったところ, この方法による精度の向上を確認できた。また, N-gramデータベースで使用するテキストコーパスに存在しない単語を補うため, 単語辞書のN-gramテータベースを追加した実験を行った。 | |||||
書誌レコードID | ||||||
収録物識別子タイプ | NCID | |||||
収録物識別子 | AN00349328 | |||||
書誌情報 |
全国大会講演論文集 巻 第55回, 号 人工知能と認知科学, p. 97-98, 発行日 1997-09-24 |
|||||
出版者 | ||||||
言語 | ja | |||||
出版者 | 情報処理学会 |