ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 研究報告
  2. データベースシステム(DBS)※2025年度よりデータベースとデータサイエンス(DBS)研究会に名称変更
  3. 2010
  4. 2010-DBS-151

学術論文文書画像からのページレイアウトに依存しない自動書誌要素抽出

https://ipsj.ixsq.nii.ac.jp/records/70805
https://ipsj.ixsq.nii.ac.jp/records/70805
babd7015-dee0-4077-9ace-9ba60ac1366f
名前 / ファイル ライセンス アクション
IPSJ-DBS10151018.pdf IPSJ-DBS10151018.pdf (553.7 kB)
Copyright (c) 2010 by the Information Processing Society of Japan
オープンアクセス
Item type SIG Technical Reports(1)
公開日 2010-11-05
タイトル
タイトル 学術論文文書画像からのページレイアウトに依存しない自動書誌要素抽出
タイトル
言語 en
タイトル Automatic Extraction of Bibliographic Elements from Scanned Academic Articles without Using Page Layout
言語
言語 jpn
キーワード
主題Scheme Other
主題 マルチメディア
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_18gh
資源タイプ technical report
著者所属
岡山大学大学院自然科学研究科
著者所属
岡山大学大学院自然科学研究科
著者所属
国立情報学研究所
著者所属(英)
en
Graduate School of Natural Science and Technology, Okayama University
著者所属(英)
en
Graduate School of Natural Science and Technology, Okayama University
著者所属(英)
en
National Institute of Informatics
著者名 井上, 諒平 太田, 学 高須, 淳宏

× 井上, 諒平 太田, 学 高須, 淳宏

井上, 諒平
太田, 学
高須, 淳宏

Search repository
著者名(英) Ryohei, Inoue Manabu, Ohta Atsuhiro, Takasu

× Ryohei, Inoue Manabu, Ohta Atsuhiro, Takasu

en Ryohei, Inoue
Manabu, Ohta
Atsuhiro, Takasu

Search repository
論文抄録
内容記述タイプ Other
内容記述 国立情報学研究所の電子図書館 NII-ELS は,国内の主要な学術論文を網羅しており,その蔵書検索には著者名等の書誌情報が利用される.NII-ELS では論文文書画像を蓄積しているため,書誌情報は文書画像からなるべく自動で抽出することが望ましい.現在の文書画像処理技術により一定の抽出精度は達成しているが,学習のため人手で書誌要素を抽出した論文データを学術雑誌ごとに用意する必要がある.しかし 1000 雑誌以上を所蔵する NII-ELS では,各雑誌ごとにこの学習データを用意するコストは無視できない.そこで本研究では,書誌要素抽出対象の雑誌とは異なる雑誌を学習データに用いて効率的に書誌要素を抽出する手法を提案する.提案手法は,論文タイトルページの各行に対して,雑誌のレイアウトに依存しない文字列等の情報を利用して書誌ラベルを付与する.
論文抄録(英)
内容記述タイプ Other
内容記述 NII-ELS developed by the National Institute of Informatics is a digital library which stores scanned document images of a wide variety of academic journals in Japan. Bibliographic information is indispensable for searching such a digital library, hence, automatic extraction of bibliographic data from the images is very important. Therefore, Yakushi et al. proposed an automatic method of extracting bibliographies for academic articles scanned with OCR markup. Although they achieved excellent extraction accuracies for some journals, they needed a substantial amount of training data obtained through costly manual extraction of bibliographies from document images. We cannot ignore this cost because NII-ELS stores more than a thousand journals. This paper, therefore, proposes an automatic bibliography extraction method to use training data collected from journals different from a target journal. The proposed method labels each text line on an article's title page as appropriate bibliographic names by using linguistic information which is independent of page layout varying by journal.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AN10112482
書誌情報 研究報告データベースシステム(DBS)

巻 2010-DBS-151, 号 18, p. 1-8, 発行日 2010-11-05
Notice
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-21 23:20:20.298133
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3