2024-03-28T21:42:12Zhttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_oaipmhoai:ipsj.ixsq.nii.ac.jp:001297032023-11-17T02:17:36Z06504:08103:08111
統計的手法による文字誤りテキスト検索Statistical Approach to Text Retrieval containing Miss Recognized Charactersjpnhttp://id.nii.ac.jp/1001/00129888/Conference Paperhttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_action_common_download&item_id=129703&item_no=1&attribute_id=1&file_no=1東京大学大学院工学系研究科学術情報センター研究開発部学術情報センター研究開発部学術情報センター研究開発部太田, 学片山, 紀生高須, 淳宏安達, 淳OCR(光学的文字読取装置)を用いると大量の印刷文書のDBへの入力作業が大幅に省力化される。そこで大量の印刷文書を画像で入力し、OCRを使って全文DBを構築する試みもあるが、その場合OCRの誤認識への対処が必要不可欠である。現在までに著者らは、この誤認職を訂正するのではなく検索段階で吸収する手法について検討し、類似文字テーブル及び単語部分照合を用いた手法の提案を行なった。 本稿ではさらなる検索効率の向上のために、統計的に得られる文字の連接情報(2-gram確率)を用いる。AN00349328全国大会講演論文集第52回データベース2112121996-03-062015-01-20