| Item type |
SIG Technical Reports(1) |
| 公開日 |
2015-11-19 |
| タイトル |
|
|
タイトル |
CRFによる参考文献書誌情報抽出のための有効な素性の検討と拡充 |
| タイトル |
|
|
言語 |
en |
|
タイトル |
Examination and Enhancement of effective features for CRF-based bibliography extraction from reference strings |
| 言語 |
|
|
言語 |
jpn |
| キーワード |
|
|
主題Scheme |
Other |
|
主題 |
機械学習 |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
| 著者所属 |
|
|
|
岡山大学工学部情報系学科 |
| 著者所属 |
|
|
|
岡山大学大学院自然科学研究科 |
| 著者所属 |
|
|
|
国立情報学研究所 |
| 著者所属 |
|
|
|
国立情報学研究所 |
| 著者所属(英) |
|
|
|
en |
|
|
Department of Information Technology, Faculty of Engineering, Okayama University |
| 著者所属(英) |
|
|
|
en |
|
|
Graduate School of Natural Science and Technology, Okayama University |
| 著者所属(英) |
|
|
|
en |
|
|
National Institute of Informatics |
| 著者所属(英) |
|
|
|
en |
|
|
National Institute of Informatics |
| 著者名 |
松岡, 大樹
太田, 学
高須, 淳宏
安達, 淳
|
| 著者名(英) |
Daiki, Matsuoka
Manabu, Ohta
Atsuhiro, Takasu
Jun, Adachi
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
膨大な文書が格納されている電子図書館を快適に運用するためには,書誌情報データベースの整備が必要である.特に,学術論文の参考文献欄には,著者名やタイトルなどの有用な書誌情報が集約されている.本研究では,CRF を用いて参考文献文字列から書誌情報を自動抽出するが,その際,CRF で利用する素性が書誌情報の抽出精度を左右する.そこで実験により,使用する素性を変えて書誌情報の抽出精度を比較し,参考文献文字列のトークン化においては文字列素性と Bigram 素性が有効であり,トークンへの書誌要素ラベル付与においては辞書素性が有効であることを確認した.そして,本研究では書誌要素ラベル付与に有効であった辞書素性を拡充し,適当な素性を選択することによって抽出精度が向上することを確認した. |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10112482 |
| 書誌情報 |
研究報告データベースシステム(DBS)
巻 2015-DBS-162,
号 3,
p. 1-8,
発行日 2015-11-19
|
| ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-871X |
| Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |