@techreport{oai:ipsj.ixsq.nii.ac.jp:00070805, author = {井上, 諒平 and 太田, 学 and 高須, 淳宏 and Ryohei, Inoue and Manabu, Ohta and Atsuhiro, Takasu}, issue = {18}, month = {Nov}, note = {国立情報学研究所の電子図書館 NII-ELS は,国内の主要な学術論文を網羅しており,その蔵書検索には著者名等の書誌情報が利用される.NII-ELS では論文文書画像を蓄積しているため,書誌情報は文書画像からなるべく自動で抽出することが望ましい.現在の文書画像処理技術により一定の抽出精度は達成しているが,学習のため人手で書誌要素を抽出した論文データを学術雑誌ごとに用意する必要がある.しかし 1000 雑誌以上を所蔵する NII-ELS では,各雑誌ごとにこの学習データを用意するコストは無視できない.そこで本研究では,書誌要素抽出対象の雑誌とは異なる雑誌を学習データに用いて効率的に書誌要素を抽出する手法を提案する.提案手法は,論文タイトルページの各行に対して,雑誌のレイアウトに依存しない文字列等の情報を利用して書誌ラベルを付与する., NII-ELS developed by the National Institute of Informatics is a digital library which stores scanned document images of a wide variety of academic journals in Japan. Bibliographic information is indispensable for searching such a digital library, hence, automatic extraction of bibliographic data from the images is very important. Therefore, Yakushi et al. proposed an automatic method of extracting bibliographies for academic articles scanned with OCR markup. Although they achieved excellent extraction accuracies for some journals, they needed a substantial amount of training data obtained through costly manual extraction of bibliographies from document images. We cannot ignore this cost because NII-ELS stores more than a thousand journals. This paper, therefore, proposes an automatic bibliography extraction method to use training data collected from journals different from a target journal. The proposed method labels each text line on an article's title page as appropriate bibliographic names by using linguistic information which is independent of page layout varying by journal.}, title = {学術論文文書画像からのページレイアウトに依存しない自動書誌要素抽出}, year = {2010} }