WEKO3
アイテム
学術論文文書画像からのページレイアウトに依存しない自動書誌要素抽出
https://ipsj.ixsq.nii.ac.jp/records/70805
https://ipsj.ixsq.nii.ac.jp/records/70805babd7015-dee0-4077-9ace-9ba60ac1366f
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2010 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2010-11-05 | |||||||
タイトル | ||||||||
タイトル | 学術論文文書画像からのページレイアウトに依存しない自動書誌要素抽出 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Automatic Extraction of Bibliographic Elements from Scanned Academic Articles without Using Page Layout | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | マルチメディア | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
岡山大学大学院自然科学研究科 | ||||||||
著者所属 | ||||||||
岡山大学大学院自然科学研究科 | ||||||||
著者所属 | ||||||||
国立情報学研究所 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Natural Science and Technology, Okayama University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Natural Science and Technology, Okayama University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
National Institute of Informatics | ||||||||
著者名 |
井上, 諒平
太田, 学
高須, 淳宏
× 井上, 諒平 太田, 学 高須, 淳宏
|
|||||||
著者名(英) |
Ryohei, Inoue
Manabu, Ohta
Atsuhiro, Takasu
× Ryohei, Inoue Manabu, Ohta Atsuhiro, Takasu
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 国立情報学研究所の電子図書館 NII-ELS は,国内の主要な学術論文を網羅しており,その蔵書検索には著者名等の書誌情報が利用される.NII-ELS では論文文書画像を蓄積しているため,書誌情報は文書画像からなるべく自動で抽出することが望ましい.現在の文書画像処理技術により一定の抽出精度は達成しているが,学習のため人手で書誌要素を抽出した論文データを学術雑誌ごとに用意する必要がある.しかし 1000 雑誌以上を所蔵する NII-ELS では,各雑誌ごとにこの学習データを用意するコストは無視できない.そこで本研究では,書誌要素抽出対象の雑誌とは異なる雑誌を学習データに用いて効率的に書誌要素を抽出する手法を提案する.提案手法は,論文タイトルページの各行に対して,雑誌のレイアウトに依存しない文字列等の情報を利用して書誌ラベルを付与する. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | NII-ELS developed by the National Institute of Informatics is a digital library which stores scanned document images of a wide variety of academic journals in Japan. Bibliographic information is indispensable for searching such a digital library, hence, automatic extraction of bibliographic data from the images is very important. Therefore, Yakushi et al. proposed an automatic method of extracting bibliographies for academic articles scanned with OCR markup. Although they achieved excellent extraction accuracies for some journals, they needed a substantial amount of training data obtained through costly manual extraction of bibliographies from document images. We cannot ignore this cost because NII-ELS stores more than a thousand journals. This paper, therefore, proposes an automatic bibliography extraction method to use training data collected from journals different from a target journal. The proposed method labels each text line on an article's title page as appropriate bibliographic names by using linguistic information which is independent of page layout varying by journal. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10112482 | |||||||
書誌情報 |
研究報告データベースシステム(DBS) 巻 2010-DBS-151, 号 18, p. 1-8, 発行日 2010-11-05 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |