ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 論文誌(ジャーナル)
  2. Vol.65
  3. No.3

歴史的文書データセットの文字矩形情報を用いた行単位画像からの文字列予測と文字セグメンテーション

https://doi.org/10.20729/00233259
https://doi.org/10.20729/00233259
8d1c4c72-c709-4b98-9557-ecc57110c682
名前 / ファイル ライセンス アクション
IPSJ-JNL6503020.pdf IPSJ-JNL6503020.pdf (20.1 MB)
 2026年3月15日からダウンロード可能です。
Copyright (c) 2024 by the Information Processing Society of Japan
非会員:¥660, IPSJ:学会員:¥330, 論文誌:会員:¥0, DLIB:会員:¥0
Item type Journal(1)
公開日 2024-03-15
タイトル
タイトル 歴史的文書データセットの文字矩形情報を用いた行単位画像からの文字列予測と文字セグメンテーション
タイトル
言語 en
タイトル Text Line Prediction and Character Segmentation from Line-by-Line Images Using Character Bounding Box Annotation of Histrical Document Dataset
言語
言語 jpn
キーワード
主題Scheme Other
主題 [一般論文] 人文科学,近代公文書,歴史的文書認識
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_6501
資源タイプ journal article
ID登録
ID登録 10.20729/00233259
ID登録タイプ JaLC
著者所属
中京大学工学部
著者所属
中京大学工学部
著者所属
中京大学先端共同研究機構人工知能高等研究所
著者所属(英)
en
School of Engineering, Chukyo University
著者所属(英)
en
School of Engineering, Chukyo University
著者所属(英)
en
Institute for Advanced Studies in Artificial Intelligence, Advanced Collaborative Research Organization, Chukyo University
著者名 山田, 雅之

× 山田, 雅之

山田, 雅之

Search repository
目加田, 慶人

× 目加田, 慶人

目加田, 慶人

Search repository
長谷川, 純一

× 長谷川, 純一

長谷川, 純一

Search repository
著者名(英) Masashi, Yamada

× Masashi, Yamada

en Masashi, Yamada

Search repository
Yoshito, Mekada

× Yoshito, Mekada

en Yoshito, Mekada

Search repository
Junichi, Hasegawa

× Junichi, Hasegawa

en Junichi, Hasegawa

Search repository
論文抄録
内容記述タイプ Other
内容記述 明治から戦前期までの日本の公文書は古語的表現や旧漢字が多用された手書き文書であり,近代古文書の知識がなければ解読は容易でない.我々は近代公文書の自動解読システムの構築をめざし,データセット開発と文書認識手法の検討を行っている.本論文ではこれまでに開発した近代公文書データセットと行画像認識手法について述べる.データセットは台湾総督府文書を題材とし,約4,500の文書画像の114万文字分の字種ラベルと文字矩形のアノテーションから構成される.行画像認識では,行単位の画像が入力で与えられたとき文字列予測と文字セグメンテーションを同時に行うタスクを扱い,Transformerベースのモデルを提案する.このモデルの訓練フェーズでは,行画像およびn文字目までの文字列とカーソル座標を与えたとき,次のn+1文字目の文字とその文字矩形を予測できるように訓練する.カーソル座標とは文字矩形の画像上での底辺中心座標である.推論フェーズでは,まず,行画像から1文字目の文字とその文字矩形を予測する.それ以降は行画像およびすでに予測した文字列と予測した文字矩形から得られるカーソル座標をモデルに入力し,次の文字と文字矩形を予測する.近代公文書データセットと古典籍くずし字データセットを用いた5分割交差検証を実施し,部分行データを用いる訓練手法とカーソル座標を利用する手法が文字列予測と文字セグメンテーションの精度向上に有効なことを確認した.
論文抄録(英)
内容記述タイプ Other
内容記述 Japanese official documents created from the Meiji period to the prewar period are handwritten documents with many archaic expressions and old kanji, and are not easy to decipher them without knowledge of archaic style of writing. We are developing a dataset and examining document recognition methods with the aim of constructing an automatic deciphering system for modern official documents. This paper describes the dataset developed thus far and a text line recognition method. This dataset is based on Taiwan Governor-General's Office documents and consists of annotation data of 1.14 million character labels and bounding boxes for about 4,500 document images. For text line recognition, we propose a Transformer-based model that handles the task of simulataneously perfoming text line prediction and character segmentation when text line images are given as input. The training phase is to train the model to predict the n+1th character and its bounding box, given a text line image, character string up to the n th character, and their cursor coordinates. The cursor coordinates are the coordinates of the center of the bottom edge of the character bounding box on the image. In the inference phase, the first character and its bounding box are predicted from the text line image. Thereafter, the text line image, the previously predicted character string, and the cursor coordinates obtained from the previously predicted bounding boxes are input to the model to predict the next character and its bounding box. Through a 5-fold cross-validation using the modern official document dataset and classical book dataset, we confirmed that the training method using partial line data and the method using cursor coordinates as feedback improved the accuracy of text line prediction and character segmentation.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AN00116647
書誌情報 情報処理学会論文誌

巻 65, 号 3, p. 754-766, 発行日 2024-03-15
ISSN
収録物識別子タイプ ISSN
収録物識別子 1882-7764
公開者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-19 10:01:59.334951
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3