Item type |
SIG Technical Reports(1) |
公開日 |
2019-10-18 |
タイトル |
|
|
タイトル |
契約書のOCR漢字誤り訂正における偏旁冠脚を考慮した編集距離の検討 |
タイトル |
|
|
言語 |
en |
|
タイトル |
A study on the edit distance taking kanji radicals into account in contracts' OCR kanji error correction |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
言語処理応用 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
横浜国立大学 |
著者所属 |
|
|
|
Genial Technology, Inc. |
著者所属 |
|
|
|
Genial Technology, Inc. |
著者所属 |
|
|
|
国立情報学研究所 |
著者所属 |
|
|
|
国立情報学研究所 |
著者所属 |
|
|
|
横浜国立大学 |
著者所属(英) |
|
|
|
en |
|
|
Yokohama National University |
著者所属(英) |
|
|
|
en |
|
|
Genial Technology, Inc. |
著者所属(英) |
|
|
|
en |
|
|
Genial Technology, Inc. |
著者所属(英) |
|
|
|
en |
|
|
National Institute of Informatics |
著者所属(英) |
|
|
|
en |
|
|
National Institute of Informatics |
著者所属(英) |
|
|
|
en |
|
|
Yokohama National University |
著者名 |
阪本, 浩太郎
阿部川, 明優
岸川, 至白
阪本, エリーザ
石下, 円香
渋木, 英潔
森, 辰則
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
会計業務の効率化を目的として,紙の契約書のスキャンデータから情報を自動抽出するシステムが求められている.我々は,契約書の構造により,会社名,住所,氏名などが書かれている範囲を推定し,推定された範囲ごとに OCR の結果からテキストを抽出するシステムを開発しているが,抽出されたテキストにOCR に起因する文字誤りが発生し,漢字の偏旁冠脚の誤りが観察された.誤りが検出されたテキストを自動訂正するため,本稿では,偏旁冠脚を考慮した編集距離を用いて辞書に登録されている語に訂正する手法を提案する.また,一般的な編集距離と比較した結果を報告する. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10115061 |
書誌情報 |
研究報告自然言語処理(NL)
巻 2019-NL-242,
号 7,
p. 1-7,
発行日 2019-10-18
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8779 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |