Item type |
Trans(1) |
公開日 |
2016-08-10 |
タイトル |
|
|
タイトル |
近代書籍を対象とした多フォント漢字認識 |
タイトル |
|
|
言語 |
en |
|
タイトル |
A Multi-Fonts Kanji Character Recognition Method for Early-Modern Japanese Printed Books |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
[オリジナル論文] 光学文字認識,多フォント漢字認識,近代書籍,PDC(外郭方向寄与度)特徴 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_6501 |
|
資源タイプ |
journal article |
著者所属 |
|
|
|
奈良女子大学 |
著者所属 |
|
|
|
奈良女子大学 |
著者所属 |
|
|
|
奈良女子大学 |
著者所属 |
|
|
|
奈良女子大学 |
著者所属(英) |
|
|
|
en |
|
|
Nara Women's University |
著者所属(英) |
|
|
|
en |
|
|
Nara Women's University |
著者所属(英) |
|
|
|
en |
|
|
Nara Women's University |
著者所属(英) |
|
|
|
en |
|
|
Nara Women's University |
著者名 |
粟津, 妙華
上坂, 和美
高田, 雅美
城, 和貴
|
著者名(英) |
Taeka, Awazu
Kazumi, Kosaka
Masami, Takata
Kazuki, Joe
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
国立国会図書館では,所蔵する明治から昭和前期の近代書籍を近代デジタルライブラリーとしてWeb上でページごとの画像データとして公開しているが,全文検索を行うことができない.そのため,自動テキスト化が望まれている.すでに我々は近代書籍に適したオフライン多フォント漢字認識手法を提案しているが,対象とした漢字は256種であり,確かな有効性を示すには至っていない.これは,近代書籍特有のルビが除去できなかったことが主な原因であるが,これに関してもすでにルビ除去手法を提案しており,ようやく学習データの大幅な増加が期待できるようになった.そこで本論文では,2634種の漢字を学習データとした識別器を生成し,92%の認識率を得た.さらに,実際に近代デジタルライブラリーで公開されている書籍に生成した識別器を適用し,有効性を検証した.結果,認識率は平均90%を超えており,良好な結果が得られた. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
In the web site of National Diet Library, the digital library from the Meiji era is open to the public. Since the early-modern Japanese printed books are given as image data, namely, full-text search is not available, automatic conversion to the text is needed. Already we have proposed the Multi-Fonts Kanji character recognition method for Early-Modern Printed Books. The proposed method was intended for only 256 types of Kanji characters, it failed to show a certain validity because there is few types of Chinese characters. The reason is because training data were not collected by the failure of removal of a ruby. In order to solve the problem, we have proposed a ruby removal method. As the result, it is possible to increase the training data. In this paper, by using the 2634 type of Kanji characters, we demonstrate the effectiveness of the proposed method. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AA11464803 |
書誌情報 |
情報処理学会論文誌数理モデル化と応用(TOM)
巻 9,
号 2,
p. 33-40,
発行日 2016-08-10
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
1882-7780 |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |