ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 全国大会
  2. 49回
  3. 人工知能及び認知科学

文書OCRにおける出力テキストの整形方法

https://ipsj.ixsq.nii.ac.jp/records/126301
https://ipsj.ixsq.nii.ac.jp/records/126301
3fd71046-cbd7-4104-8226-f9bbee7b282f
名前 / ファイル ライセンス アクション
KJ00001339780.pdf KJ00001339780.pdf (189.7 kB)
Item type National Convention(1)
公開日 1994-09-20
タイトル
タイトル 文書OCRにおける出力テキストの整形方法
タイトル
言語 en
タイトル A method for formatting OCR texts
言語
言語 jpn
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_5794
資源タイプ conference paper
著者所属
日本アイ・ビー・エム株式会社東京基礎研究所
著者所属(英)
en
IBM Rescarch,Tokyo Research Labortory,IBBM Japan Ltd
論文抄録
内容記述タイプ Other
内容記述 印刷文書用OCRシステムを用いて文書を認識した後に、その処理結果を有効利用するために、認識結果をどのような形態で出力するのがよいかというのは大きな問題である。また、認識しながら、あるいは認識が終了した後に、認識結果を確認修正する場合に、どのような形態で表示すればより効率的な確認修正ができるかということもシステム全体から見て重要である。認識した文字をテキストファイルとして出力するのがもっとも一般的な方法であると考えられるが、そのテキストファイルでの出力の従来の方法として(1)文字を認識した順に、上から文字列単位で出力する方法、と(2)オリジナルイメージのレイアウトをできるだけ再現して出力する方法、がある。(1)も(2)もそれぞれ認識結果を利用する際には有用な表現形式である。特に、(2)の方法では確認修正の際にオリジナル文書と比較がしやすい等の利点を持つ。従来は、(2)を実現するために文字の座標情報から位置を計算してその位置に文字を表示するという方法で実現していた。しかし、この方法は複数カラムをもつドキュメントを処理した場合などに第2カラム目以降の左端がそろわないなどの問題点をもっている。この問題点の原因としては、座標から文字数を計算する時の誤差、オリジナル文書とテキストファイルとで文字ピッチ、行ピッチ、フォントサイズ等が異なるということがあげられる。そこで本稿では、従来(2)の方法で生じていた問題点を解決するために文字認識に先だって行なわれるレイアウト解析の結果を利用して認識された文字を整形して出力する方法を示す。
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AN00349328
書誌情報 全国大会講演論文集

巻 第49回, 号 人工知能及び認知科学, p. 197-198, 発行日 1994-09-20
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-21 01:48:04.927830
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3