Item type |
Journal(1) |
公開日 |
2024-03-15 |
タイトル |
|
|
タイトル |
歴史的文書データセットの文字矩形情報を用いた行単位画像からの文字列予測と文字セグメンテーション |
タイトル |
|
|
言語 |
en |
|
タイトル |
Text Line Prediction and Character Segmentation from Line-by-Line Images Using Character Bounding Box Annotation of Histrical Document Dataset |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
[一般論文] 人文科学,近代公文書,歴史的文書認識 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_6501 |
|
資源タイプ |
journal article |
ID登録 |
|
|
ID登録 |
10.20729/00233259 |
|
ID登録タイプ |
JaLC |
著者所属 |
|
|
|
中京大学工学部 |
著者所属 |
|
|
|
中京大学工学部 |
著者所属 |
|
|
|
中京大学先端共同研究機構人工知能高等研究所 |
著者所属(英) |
|
|
|
en |
|
|
School of Engineering, Chukyo University |
著者所属(英) |
|
|
|
en |
|
|
School of Engineering, Chukyo University |
著者所属(英) |
|
|
|
en |
|
|
Institute for Advanced Studies in Artificial Intelligence, Advanced Collaborative Research Organization, Chukyo University |
著者名 |
山田, 雅之
目加田, 慶人
長谷川, 純一
|
著者名(英) |
Masashi, Yamada
Yoshito, Mekada
Junichi, Hasegawa
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
明治から戦前期までの日本の公文書は古語的表現や旧漢字が多用された手書き文書であり,近代古文書の知識がなければ解読は容易でない.我々は近代公文書の自動解読システムの構築をめざし,データセット開発と文書認識手法の検討を行っている.本論文ではこれまでに開発した近代公文書データセットと行画像認識手法について述べる.データセットは台湾総督府文書を題材とし,約4,500の文書画像の114万文字分の字種ラベルと文字矩形のアノテーションから構成される.行画像認識では,行単位の画像が入力で与えられたとき文字列予測と文字セグメンテーションを同時に行うタスクを扱い,Transformerベースのモデルを提案する.このモデルの訓練フェーズでは,行画像およびn文字目までの文字列とカーソル座標を与えたとき,次のn+1文字目の文字とその文字矩形を予測できるように訓練する.カーソル座標とは文字矩形の画像上での底辺中心座標である.推論フェーズでは,まず,行画像から1文字目の文字とその文字矩形を予測する.それ以降は行画像およびすでに予測した文字列と予測した文字矩形から得られるカーソル座標をモデルに入力し,次の文字と文字矩形を予測する.近代公文書データセットと古典籍くずし字データセットを用いた5分割交差検証を実施し,部分行データを用いる訓練手法とカーソル座標を利用する手法が文字列予測と文字セグメンテーションの精度向上に有効なことを確認した. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
Japanese official documents created from the Meiji period to the prewar period are handwritten documents with many archaic expressions and old kanji, and are not easy to decipher them without knowledge of archaic style of writing. We are developing a dataset and examining document recognition methods with the aim of constructing an automatic deciphering system for modern official documents. This paper describes the dataset developed thus far and a text line recognition method. This dataset is based on Taiwan Governor-General's Office documents and consists of annotation data of 1.14 million character labels and bounding boxes for about 4,500 document images. For text line recognition, we propose a Transformer-based model that handles the task of simulataneously perfoming text line prediction and character segmentation when text line images are given as input. The training phase is to train the model to predict the n+1th character and its bounding box, given a text line image, character string up to the n th character, and their cursor coordinates. The cursor coordinates are the coordinates of the center of the bottom edge of the character bounding box on the image. In the inference phase, the first character and its bounding box are predicted from the text line image. Thereafter, the text line image, the previously predicted character string, and the cursor coordinates obtained from the previously predicted bounding boxes are input to the model to predict the next character and its bounding box. Through a 5-fold cross-validation using the modern official document dataset and classical book dataset, we confirmed that the training method using partial line data and the method using cursor coordinates as feedback improved the accuracy of text line prediction and character segmentation. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN00116647 |
書誌情報 |
情報処理学会論文誌
巻 65,
号 3,
p. 754-766,
発行日 2024-03-15
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
1882-7764 |
公開者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |