Item type |
SIG Technical Reports(1) |
公開日 |
2019-12-04 |
タイトル |
|
|
タイトル |
近代書籍における低出現頻度文字種の獲得 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Acquiring Low Appearance Characters in Early-Modern Japanese Printed Books |
言語 |
|
|
言語 |
jpn |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
奈良女子大学 |
著者所属 |
|
|
|
奈良女子大学 |
著者所属 |
|
|
|
滋賀大学 |
著者所属 |
|
|
|
奈良女子大学 |
著者所属 |
|
|
|
奈良女子大学 |
著者所属(英) |
|
|
|
en |
|
|
Nara Women's University |
著者所属(英) |
|
|
|
en |
|
|
Nara Women's University |
著者所属(英) |
|
|
|
en |
|
|
Shiga University |
著者所属(英) |
|
|
|
en |
|
|
Nara Women's University |
著者所属(英) |
|
|
|
en |
|
|
Nara Women's University |
著者名 |
藤田, 未希
竹本, 有紀
石川, 由羽
髙田, 雅美
城, 和貴
|
著者名(英) |
Miki, Fujita
Yuki, Takemoto
Yu, Ishikawa
Masami, Takata
Kazuki, Joe
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
本稿では,近代書籍における低出現頻度文字種を獲得する手法を提案する.国立国会図書館で公開されている近代書籍を対象にした OCR は学習データが少ないため,認識率は十分でない.そこで,本稿では文字種の分野 ・領域をドメインと定義し,近代書籍における低出現頻度文字種が頻出する特定のドメインから,近代書籍用 OCR の認識率向上に必要な低出現頻度文字種を獲得する手法を提案する.まず初めに,学習データの収集対象である青空文庫の書籍の文字の出現頻度を調べ,低出現頻度文字種獲得の難易度の調査を行う.そして,分野の違う書籍として新潟県連合産婆会会報を選択し,近代書籍における低出現頻度文字種が頻出しているかを確認する.次に,青空文庫との文字の出現頻度を比較する実験を行い,提案した手法の有用性を確認する. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10505667 |
書誌情報 |
研究報告数理モデル化と問題解決(MPS)
巻 2019-MPS-126,
号 6,
p. 1-6,
発行日 2019-12-04
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8833 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |