WEKO3
アイテム
生成文字画像を用いた単・複数行テキストに対する文字認識精度向上の検討
https://ipsj.ixsq.nii.ac.jp/records/236186
https://ipsj.ixsq.nii.ac.jp/records/23618635e34ec4-068a-478e-9ce6-a0e729ddb9a3
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2024 by the Information Processing Society of Japan
|
Item type | National Convention(1) | |||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
公開日 | 2024-03-01 | |||||||||||||
タイトル | ||||||||||||||
タイトル | 生成文字画像を用いた単・複数行テキストに対する文字認識精度向上の検討 | |||||||||||||
言語 | ||||||||||||||
言語 | jpn | |||||||||||||
キーワード | ||||||||||||||
主題Scheme | Other | |||||||||||||
主題 | 人工知能と認知科学 | |||||||||||||
資源タイプ | ||||||||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_5794 | |||||||||||||
資源タイプ | conference paper | |||||||||||||
著者所属 | ||||||||||||||
山梨大 | ||||||||||||||
著者所属 | ||||||||||||||
山梨大 | ||||||||||||||
著者所属 | ||||||||||||||
山梨大 | ||||||||||||||
著者所属 | ||||||||||||||
山梨大 | ||||||||||||||
著者名 |
チーシャン, レオ
× チーシャン, レオ
× 北川, 智樹
× 矢島, 英明
× 西崎, 博光
|
|||||||||||||
論文抄録 | ||||||||||||||
内容記述タイプ | Other | |||||||||||||
内容記述 | 高精度な深層学習ベースの文字認識システムを構築するのに、大量な学習データが必要である。本稿では、先行研究であるY-Autoencoderを用いた文字生成モデルで生成された漢字の画像を元に、単行または複数行の文字認識器の精度向上を向上する方法を検討した。また、従来の文字認識器では一行単位のものが多く、単一モデルによる単行または複数行を認識できるモデルは少ない。本稿では、文字が検出されることを仮定し、TrOCRモデルを元に単行および複数行を単一のモデルで認識する方法を検討した。その結果、TrOCRモデルは画像の事前処理の工夫によって、複数行の認識も可能であることがわかった。 | |||||||||||||
書誌レコードID | ||||||||||||||
収録物識別子タイプ | NCID | |||||||||||||
収録物識別子 | AN00349328 | |||||||||||||
書誌情報 |
第86回全国大会講演論文集 巻 2024, 号 1, p. 703-704, 発行日 2024-03-01 |
|||||||||||||
出版者 | ||||||||||||||
言語 | ja | |||||||||||||
出版者 | 情報処理学会 |