ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 論文誌(トランザクション)
  2. データベース(TOD)[電子情報通信学会データ工学研究専門委員会共同編集]
  3. Vol.2
  4. No.2

CRFを用いた学術論文OCRテキストからの自動書誌要素抽出

https://ipsj.ixsq.nii.ac.jp/records/60734
https://ipsj.ixsq.nii.ac.jp/records/60734
05b4dcbd-7d1f-48c6-bd31-05eb805e1c2d
名前 / ファイル ライセンス アクション
IPSJ-TOD0202011.pdf IPSJ-TOD0202011.pdf (276.6 kB)
Copyright (c) 2009 by the Information Processing Society of Japan
オープンアクセス
Item type Trans(1)
公開日 2009-06-29
タイトル
タイトル CRFを用いた学術論文OCRテキストからの自動書誌要素抽出
タイトル
言語 en
タイトル Automatic Bibliographic Element Extraction from OCRed Academic Articles Using Conditional Random Fields
言語
言語 jpn
キーワード
主題Scheme Other
主題 研究論文
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_6501
資源タイプ journal article
著者所属
岡山大学大学院自然科学研究科/現在,NECシステムテクノロジー株式会社
著者所属
岡山大学大学院自然科学研究科
著者所属
国立情報学研究所
著者所属(英)
en
Graduate School of Natural Science and Technology, Okayama University / Presently with NEC System Technologies, Ltd.
著者所属(英)
en
Graduate School of Natural Science and Technology, Okayama University
著者所属(英)
en
National Institute of Informatics
著者名 薬師, 貴之 太田, 学 高須, 淳宏

× 薬師, 貴之 太田, 学 高須, 淳宏

薬師, 貴之
太田, 学
高須, 淳宏

Search repository
著者名(英) Takayuki, Yakushi Manabu, Ohta Atsuhiro, Takasu

× Takayuki, Yakushi Manabu, Ohta Atsuhiro, Takasu

en Takayuki, Yakushi
Manabu, Ohta
Atsuhiro, Takasu

Search repository
論文抄録
内容記述タイプ Other
内容記述 文献データベースは学術論文を所蔵する電子図書館では不可欠である.しかし紙媒体の論文からの書誌要素抽出は,OCR などの画像処理技術を利用してもその抽出コストは高い.そこで本稿では,OCR 処理された学術論文から書誌要素を自動的に抽出する手法を提案する.提案手法では,まず OCR の文書画像処理によって得られた矩形テキスト領域に対して,あらかじめ定義した書誌要素を表すラベルを付与する.さらに,必要に応じて矩形テキスト領域内の各文字に対してもラベル付けを行う.この文字へのラベル付けによって,複数の著者名が記述された矩形テキスト領域から各著者の名前を抽出することができる.提案手法では,矩形テキスト領域や文字へのラベル付けに Conditional Random Fields(CRF) を使用する.言語の異なる 2 種類の論文誌を用いて実験を行ったところ,矩形領域へのラベル付けは,和文誌で 97.56%,英文誌で 97.27% の精度であった.また文字へのラベル付けによる和文誌の和文著書名領域からの各著者名の抽出精度は 99% 以上を達成した.
論文抄録(英)
内容記述タイプ Other
内容記述 Bibliographic databases are indispensable to digital libraries of academic articles. However, extracting bibliographic elements from printed documents requires a lot of human intervention; it is not cost-effective, even when using various document image-processing techniques such as optical character recognition (OCR). In this paper, we propose an automatic bibliographic element extraction method for academic articles scanned with OCR markup. The proposed method first labels text blocks as predetermined bibliographic elements and then further labels the characters in each labeled text block if necessary. The second labeling enables us to extract each author's name from the authors' text block. The method uses conditional random fields (CRF) for labeling both text blocks and the characters in them. We applied the method to Japanese and English academic articles. The experiments showed that the proposed method correctly extracted all the predefined bibliographic text blocks from 97.56% of the Japanese articles and 97.27% of English ones, respectively. The proposed method also correctly extracted all the author name strings from more than 99% of the Japanese authors' text blocks in the Japanese articles.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AA11464847
書誌情報 情報処理学会論文誌データベース(TOD)

巻 2, 号 2, p. 126-136, 発行日 2009-06-29
ISSN
収録物識別子タイプ ISSN
収録物識別子 1882-7799
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-22 03:01:17.086731
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3