2024-03-29T05:28:27Zhttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_oaipmhoai:ipsj.ixsq.nii.ac.jp:001913562023-04-27T10:00:04Z01164:04619:09352:09559
文字認識が困難な文献史料画像の解析のための文字画像クラスタリング手法Character Image Clustering for Analyzing Machine-Unreadable Historical Document imagesjpnディスカッションセッション2http://id.nii.ac.jp/1001/00191267/Technical Reporthttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_action_common_download&item_id=191356&item_no=1&attribute_id=1&file_no=1Copyright (c) 2018 by the Institute of Electronics, Information and Communication Engineers This SIG report is only available to those in membership of the SIG.公立はこだて未来大学大学院システム情報科学研究科公立はこだて未来大学システム情報科学部情報アーキテクチャ学科伊藤, 空寺沢, 憲吾大量の文献史料画像が貯蓄 ・ 公開されているデジタルアーカイブの利活用を考えるうえで,各文献史料画像の索引があったり,タグ付けされたキーワードが提示されていると有益であると考え,本研究室では,文字認識が困難な文献史料画像に対して,文字認識を行わずにキーワードを抽出するシステムの開発を行っている.本キーワード抽出システムは,特徴ベクトルで表された文字画像群のクラスタリングを行うことで特徴ベクトルを離散化し,文章を離散化された特徴ベクトルのシーケンスで表し,それを解析することで,文字認識を行わない非テキスト下でのキーワード抽出を実現している.クラスタリングの際,1 つの字種が複数のクラスタに分離する 「クラスタの分離」 が生じるとキーワード抽出の精度が下がる.また,文献史料画像から切り出された文字画像数が多い場合,計算コストの関係で一括でクラスタリングすることが困難である.このような問題を解決するために,本研究では,クラスタの分離の抑え,文字画像が多い場合でも適用可能なクラスタリング手法を提案する.For utilization of digital archives which store and publish a lot of historical document images, we think that being shown their indexes or tagged keywords is useful. So, in our laboratory, we are developing a system which extracts keywords from machine-unreadable historical document images without character recognition. In this keyword extraction system, first, we discretize feature vectors by clustering character images expressed by the feature vector. Next, we express sentences with sequences of discretized feature vectors and analyze them. With such a system, we can realize keyword extraction without character recognition. While clustering, if "separation of clusters" where one character class is separated into some clusters occurs, the accuracy of keyword extraction decreases. Another problem, In the case of too many character images separated from historical document images, it is difficult to cluster them at once because of computing costs. To solve these problems, in this study, we suggest a clustering method which restrains the separation of clusters and can be adapted in case of too many character images.AA11131797研究報告コンピュータビジョンとイメージメディア(CVIM)2018-CVIM-21311162018-09-132188-87012018-09-11