類似文字データベースとN-gramによる文字認識後処理

WEKO3

lat lon distance

[[sub_check.contents]]

[[sub_radio.contents]]

Field does not validate

[[sub_attr.contents]]　

インデックスツリー

アイテム

類似文字データベースとN-gramによる文字認識後処理

https://ipsj.ixsq.nii.ac.jp/records/132107

名前 / ファイル	ライセンス	アクション
KJ00001345877.pdf (176.2 kB)

Item type		National Convention(1)
公開日		1997-09-24
タイトル
	タイトル	類似文字データベースとN-gramによる文字認識後処理
タイトル
	言語	en
	タイトル	Postprocessing for character recognition based on N-gram model using similar character database
言語
	言語	jpn
資源タイプ
	資源タイプ識別子	http://purl.org/coar/resource_type/c_5794
	資源タイプ	conference paper
著者所属
		岐阜大学工学部
著者所属
		岐阜大学工学部
著者所属
		岐阜大学工学部
著者所属
		岐阜大学工学部
著者所属(英)
		en
		Faculty of Engineering, Gifu University
著者所属(英)
		en
		Faculty of Engineering, Gifu University
著者所属(英)
		en
		Faculty of Engineering, Gifu University
著者所属(英)
		en
		Faculty of Engineering, Gifu University
論文抄録
	内容記述タイプ	Other
	内容記述	市販のOCRの認識率は, カタログでは99%以上をうたっているが, 現実には印刷の品質が悪かったり, スキャナーでの読み取り条件が最適化されていないことのために, 95%程度にとどまっている。そこで, 何らかの言語処理を導入した後処理が必要となる。後処理方式の多くは, N-gram統計を用いたものが多いが, この場合, 文字候補の中に必ず正解文字が存在するという条件が付けられる。つまり, 文字候補の中に正解文字が存在しない場合は, 正解文が得られないことになる。また, 正解文字がN-gramのテキストデータベースに依存する為, 正しい文字を選び出さない事がある。そこで本研究では, 類似文字データベースを作成して, 候補の追加を行なう方法を提案する。すなわち, OCRの候補文字ラティスにtrigramモデルを用いたコスト最小法を適用し, 選ばれた最適パスの中で, ある閾値を越えた部分を誤りとして検出する。そして, その部分に類似文字データベースから新たに候補を補足して再度Ngramモデルを用いたコスト最小法を適用する。新聞記事をテストデータとして実験を行なったところ, この方法による精度の向上を確認できた。また, N-gramデータベースで使用するテキストコーパスに存在しない単語を補うため, 単語辞書のN-gramテータベースを追加した実験を行った。
書誌レコードID
	収録物識別子タイプ	NCID
	収録物識別子	AN00349328
書誌情報		全国大会講演論文集巻第55回, 号人工知能と認知科学, p. 97-98, 発行日 1997-09-24
出版者
	言語	ja
	出版者	情報処理学会