WEKO3
アイテム
CRFを用いた学術論文OCRテキストからの自動書誌要素抽出
https://ipsj.ixsq.nii.ac.jp/records/60734
https://ipsj.ixsq.nii.ac.jp/records/6073405b4dcbd-7d1f-48c6-bd31-05eb805e1c2d
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2009 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | Trans(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2009-06-29 | |||||||
タイトル | ||||||||
タイトル | CRFを用いた学術論文OCRテキストからの自動書誌要素抽出 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Automatic Bibliographic Element Extraction from OCRed Academic Articles Using Conditional Random Fields | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | 研究論文 | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_6501 | |||||||
資源タイプ | journal article | |||||||
著者所属 | ||||||||
岡山大学大学院自然科学研究科/現在,NECシステムテクノロジー株式会社 | ||||||||
著者所属 | ||||||||
岡山大学大学院自然科学研究科 | ||||||||
著者所属 | ||||||||
国立情報学研究所 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Natural Science and Technology, Okayama University / Presently with NEC System Technologies, Ltd. | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Natural Science and Technology, Okayama University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
National Institute of Informatics | ||||||||
著者名 |
薬師, 貴之
太田, 学
高須, 淳宏
× 薬師, 貴之 太田, 学 高須, 淳宏
|
|||||||
著者名(英) |
Takayuki, Yakushi
Manabu, Ohta
Atsuhiro, Takasu
× Takayuki, Yakushi Manabu, Ohta Atsuhiro, Takasu
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 文献データベースは学術論文を所蔵する電子図書館では不可欠である.しかし紙媒体の論文からの書誌要素抽出は,OCR などの画像処理技術を利用してもその抽出コストは高い.そこで本稿では,OCR 処理された学術論文から書誌要素を自動的に抽出する手法を提案する.提案手法では,まず OCR の文書画像処理によって得られた矩形テキスト領域に対して,あらかじめ定義した書誌要素を表すラベルを付与する.さらに,必要に応じて矩形テキスト領域内の各文字に対してもラベル付けを行う.この文字へのラベル付けによって,複数の著者名が記述された矩形テキスト領域から各著者の名前を抽出することができる.提案手法では,矩形テキスト領域や文字へのラベル付けに Conditional Random Fields(CRF) を使用する.言語の異なる 2 種類の論文誌を用いて実験を行ったところ,矩形領域へのラベル付けは,和文誌で 97.56%,英文誌で 97.27% の精度であった.また文字へのラベル付けによる和文誌の和文著書名領域からの各著者名の抽出精度は 99% 以上を達成した. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | Bibliographic databases are indispensable to digital libraries of academic articles. However, extracting bibliographic elements from printed documents requires a lot of human intervention; it is not cost-effective, even when using various document image-processing techniques such as optical character recognition (OCR). In this paper, we propose an automatic bibliographic element extraction method for academic articles scanned with OCR markup. The proposed method first labels text blocks as predetermined bibliographic elements and then further labels the characters in each labeled text block if necessary. The second labeling enables us to extract each author's name from the authors' text block. The method uses conditional random fields (CRF) for labeling both text blocks and the characters in them. We applied the method to Japanese and English academic articles. The experiments showed that the proposed method correctly extracted all the predefined bibliographic text blocks from 97.56% of the Japanese articles and 97.27% of English ones, respectively. The proposed method also correctly extracted all the author name strings from more than 99% of the Japanese authors' text blocks in the Japanese articles. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AA11464847 | |||||||
書誌情報 |
情報処理学会論文誌データベース(TOD) 巻 2, 号 2, p. 126-136, 発行日 2009-06-29 |
|||||||
ISSN | ||||||||
収録物識別子タイプ | ISSN | |||||||
収録物識別子 | 1882-7799 | |||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |