@techreport{oai:ipsj.ixsq.nii.ac.jp:00200959, author = {藤田, 未希 and 竹本, 有紀 and 石川, 由羽 and 髙田, 雅美 and 城, 和貴 and Miki, Fujita and Yuki, Takemoto and Yu, Ishikawa and Masami, Takata and Kazuki, Joe}, issue = {6}, month = {Dec}, note = {本稿では,近代書籍における低出現頻度文字種を獲得する手法を提案する.国立国会図書館で公開されている近代書籍を対象にした OCR は学習データが少ないため,認識率は十分でない.そこで,本稿では文字種の分野 ・領域をドメインと定義し,近代書籍における低出現頻度文字種が頻出する特定のドメインから,近代書籍用 OCR の認識率向上に必要な低出現頻度文字種を獲得する手法を提案する.まず初めに,学習データの収集対象である青空文庫の書籍の文字の出現頻度を調べ,低出現頻度文字種獲得の難易度の調査を行う.そして,分野の違う書籍として新潟県連合産婆会会報を選択し,近代書籍における低出現頻度文字種が頻出しているかを確認する.次に,青空文庫との文字の出現頻度を比較する実験を行い,提案した手法の有用性を確認する.}, title = {近代書籍における低出現頻度文字種の獲得}, year = {2019} }