Item type |
Trans(1) |
公開日 |
2023-10-31 |
タイトル |
|
|
タイトル |
多段組多サイズ見出しで構成される近代書籍のレイアウト解析 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Layout Analysis for Early-modern Japanese Printed Book with Multi-column and Multi-size Headings |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
[事例紹介論文] 近代書籍,多段組多サイズ見出しレイアウト,レイアウト解析 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_6501 |
|
資源タイプ |
journal article |
著者所属 |
|
|
|
奈良女子大学 |
著者所属 |
|
|
|
立命館大学 |
著者所属 |
|
|
|
京都女子大学 |
著者所属 |
|
|
|
奈良女子大学 |
著者所属 |
|
|
|
奈良女子大学 |
著者所属(英) |
|
|
|
en |
|
|
Nara Womens University |
著者所属(英) |
|
|
|
en |
|
|
Ritsumeikan University |
著者所属(英) |
|
|
|
en |
|
|
Kyoto Women's University |
著者所属(英) |
|
|
|
en |
|
|
Nara Womens University |
著者所属(英) |
|
|
|
en |
|
|
Nara Womens University |
著者名 |
飯田, 紗也香
竹本, 有紀
石川, 由羽
髙田, 雅美
城, 和貴
|
著者名(英) |
Sayaka, Iida
Yuki, Takemoto
Yu, Ishikawa
Masami, Takata
Kazuki, Joe
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
近代書籍にも対応するOCRとして最近NDLOCRが新規開発された.NDLOCRは多数の一般書籍にみられる1段組みの縦書きレイアウトに対しては十分な精度でレイアウト解析を行うことができる.しかし,新聞のような多段組多サイズ見出しを含むレイアウトの近代書籍には,十分な精度でレイアウト解析を行うことができない.そこで,CRAFTと解像度ピラミッドを用いて多段組多サイズ見出しを含むレイアウトの近代書籍に対する文字切り出しを試みる.多段組多サイズ見出し対応のOCR構築における最終的な目標として明治以降の日本人移民が現地で出版した邦字新聞のテキスト化を目指しているが,本論文では,邦字新聞ほどテキスト化の難易度が高くない多段組多サイズ見出しを含む近代書籍の例として帝国議会会議録に焦点を当てる.帝国議会会議録に対して提案手法と他のOCRにおけるレイアウト解析の精度を比較して検証を行う. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
NDLOCR has recently been newly developed as an OCR for Early-Modern Japanese Printed Books, and it can perform layout analysis with sufficient accuracy for the single-column vertical layouts found in many general books. However, it cannot perform layout analysis with sufficient accuracy for modern books with multi-column layouts and multi-size headings, such as newspapers. Therefore, we attempted to perform text extraction for Early-Modern Japanese Printed Books with layouts that include multi-columns and multi-size headlines using CRAFT and the resolution pyramid. The ultimate goal of OCR construction for multi-column and multi-size headlines is to convert Japanese newspapers published locally by Japanese immigrants after the Meiji period into text. In this paper, we focus on the Imperial Diet Proceedings as an example of an Early-Modern Japanese Printed Book containing multi-column and multi-size headlines, which is not as difficult to convert into text as Japanese newspapers. The proposed method is validated by comparing the accuracy of the proposed method with that of layout analysis by other OCR methods for the Imperial Diet Proceedings. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AA11464803 |
書誌情報 |
情報処理学会論文誌数理モデル化と応用(TOM)
巻 16,
号 2,
p. 67-79,
発行日 2023-10-31
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
1882-7780 |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |