Item type |
Trans(1) |
公開日 |
2015-06-30 |
タイトル |
|
|
タイトル |
少量学習データによる参考文献書誌情報抽出精度の向上 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Improvement in Accuracy for Bibliography Extraction from Reference Strings in Academic Papers Using a Small Amount of Training Data |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
[研究論文] 情報抽出,参考文献文字列,能動サンプリング,擬似学習データ,転移学習 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_6501 |
|
資源タイプ |
journal article |
著者所属 |
|
|
|
岡山大学大学院自然科学研究科/現在,三菱電機インフォメーションシステムズ株式会社 |
著者所属 |
|
|
|
岡山大学大学院自然科学研究科 |
著者所属 |
|
|
|
国立情報学研究所 |
著者所属 |
|
|
|
国立情報学研究所 |
著者所属(英) |
|
|
|
en |
|
|
Graduate School of Natural Science and Technology, Okayama University / Presently with Mitsubishi Electric Information Systems Corporation |
著者所属(英) |
|
|
|
en |
|
|
Graduate School of Natural Science and Technology, Okayama University |
著者所属(英) |
|
|
|
en |
|
|
National Institute of Informatics |
著者所属(英) |
|
|
|
en |
|
|
National Institute of Informatics |
著者名 |
川上, 尚慶
太田, 学
高須, 淳宏
安達, 淳
|
著者名(英) |
Naomichi, Kawakami
Manabu, Ohta
Atsuhiro, Takasu
Jun, Adachi
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
電子図書館の運用には,書誌情報データベースの整備が必須である.特に学術論文の参考文献欄には有用な書誌情報が集約されている.そこで我々は,Conditional Random Field(CRF)を用いて参考文献文字列から書誌情報を自動抽出する手法を提案した.しかし,書誌情報を高精度に抽出するには雑誌ごとに一定量の学習データを用意する必要があり,その生成コストが問題だった.本稿では,学習データが少ない場合に,能動サンプリングと擬似学習データ,転移学習を利用して抽出精度を改善する方法を提案する.実験では,抽出精度と必要とする学習データ件数を評価し,提案手法の有効性について考察した. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
The effective use of digital libraries demands maintenance of bibliographic databases. Especially, the reference fields of academic papers are full of useful bibliographic information. We, therefore, proposed a method of automatically extracting bibliographic information from reference strings using a conditional random field (CRF). However, at least a few hundred reference strings are necessary for training the CRF to achieve high extraction accuracies and the preparation of such human-labeled data for training is usually expensive. As described herein, we propose the use of active sampling, pseudo-training data and transfer learning to improve extraction accuracies with a small amount of training data. Then we evaluate the extraction accuracies and the associated training costs by experimentation and discuss the effectiveness of the proposed approach. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AA11464847 |
書誌情報 |
情報処理学会論文誌データベース(TOD)
巻 8,
号 2,
p. 18-29,
発行日 2015-06-30
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
1882-7799 |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |