WEKO3
アイテム
活字データの分類を用いた進化計算による近代書籍からのルビ除去
https://ipsj.ixsq.nii.ac.jp/records/101788
https://ipsj.ixsq.nii.ac.jp/records/1017886a530e7c-7032-43cb-b7c4-402d87e3144b
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2014 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2014-06-18 | |||||||
タイトル | ||||||||
タイトル | 活字データの分類を用いた進化計算による近代書籍からのルビ除去 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Ruby Removal Filters by Genetic Programming using the classification of printing type data for Early-Modern Japanese Printed Books | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
奈良女子大学 | ||||||||
著者所属 | ||||||||
奈良女子大学 | ||||||||
著者所属 | ||||||||
奈良女子大学 | ||||||||
著者名 |
粟津妙華
× 粟津妙華
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 国立国会図書館では,所蔵する明治から昭和前期の近代書籍を近代デジタルライブラリとして Web 上でページごとの画像データとして公開しているが,文書内容での検索を行うことができない.そのため,自動でのテキストデータ化が望まれている.その際,問題となっているのがヒストグラムでは除去できないルビであり,我々はすでに近代書籍に特化したルビ除去手法を提案している.しかしながら,提案した手法は書籍に付加された外部情報を元にしており,実現可能性は低い.そこで本論文では,書籍画像から直接得られるデータを元に,進化計算によってルビ除去式を生成し,近代書籍から自動でルビを除去する手法を提案する. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | In National Diet Library, books which are possessed in library as ”the digital library from meiji era” are open to the public on Web. Since these are shown as image data and cannot search using document contents, an automatic text conversion is needed. There is a major obstacle to text conversion. It is ruby. Ruby can not be removed in the histogram method. Therefore, we have proposed a ruby removal method for early-modern Japanese printed books. However, since the proposed method is based on the external information added to the books, the feasibility is low. In this paper, we propose a method to remove the ruby automatically from early-modern Japanese printed books by generating ruby removal formula in Genetic Programming using the training data was based on the data of book image. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AA12055912 | |||||||
書誌情報 |
研究報告バイオ情報学(BIO) 巻 2014-BIO-38, 号 20, p. 1-6, 発行日 2014-06-18 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |