Item type |
Trans(1) |
公開日 |
2021-10-14 |
タイトル |
|
|
タイトル |
クエリと文書のフィールドを考慮した被引用統計データの検索 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Leveraging Query and Document Fields for Cited Dataset Retrieval |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
[研究論文] データ検索,統計データ引用,複数フィールド検索,表検索,メタデータ |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_6501 |
|
資源タイプ |
journal article |
著者所属 |
|
|
|
筑波大学大学院人間総合科学学術院 |
著者所属 |
|
|
|
筑波大学図書館情報メディア系/JSTさきがけ |
著者所属(英) |
|
|
|
en |
|
|
Graduate School of Comprehensive Human Sciences, University of Tsukuba |
著者所属(英) |
|
|
|
en |
|
|
Faculty of Library, Information and Media Science, University of Tsukuba / JST PRESTO |
著者名 |
中野, 優
加藤, 誠
|
著者名(英) |
Yu, Nakano
Makoto, P. Kato
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
本論文では文書中の数値の真偽を検証するために,数値が参照する統計データを自動的に検索する手法を提案する.我々はこの統計データ検索問題をアドホック検索問題と見なし,数値と数値を含む文書の組をクエリ,統計データを検索対象の文書ととらえて検索モデルを適用するというアプローチをとる.さらに,検索対象文書である統計データが列名などのフィールドを持つ点に加えて,クエリに含まれる文書もタイトルなどの付随する情報からフィールドを持つ点に着目し,クエリと検索対象統計データの双方のフィールドを考慮した検索手法であるBM25FFを提案する.提案手法の有効性を検証するために,政府統計を引用するWikipedia記事を利用してデータセットを作成した.このデータセットを用いて,BM25などのクエリや統計データのフィールドを用いないベースライン手法と提案手法の比較を行った.その結果,提案手法はベースライン手法と比較して最大3.8倍の性能を発揮することが判明し,クエリと文書の両方のフィールドを利用することが本検索タスクにおいては重要であることが示された.これに加えて,エンティティに関連するクエリのフィールドが統計データの検索に重要である可能性が示された. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
To verify the numerical values in the text, we propose a method for automatically retrieving the cited statistical dataset. We formulate this dataset retrieval problem as an ad hoc retrieval problem. In other words, our approach is to first consider pairs of a numerical value and a document containing the numeric value as the queries and the statistical dataset as the documents to be retrieved, and then apply the retrieval model. We propose BM25FF, a retrieval method that takes into account the fields of both the query and the statistical dataset to be retrieved, based on the fact that the statistical dataset to be retrieved has fields such as column names, and the document included in the query also has fields such as titles. To evaluate the effectiveness of the proposed method, we created a dataset using Wikipedia articles that cite government statistical dataset. Using this dataset, we compare the proposed method with the baseline methods that do not use query or statistical dataset fields, such as BM25. Our evaluation shows that the proposed method performs up to 3.8 times better than the baseline method, indicating that the use of both query and document fields is important in this retrieval task. In addition, the query fields related to the entities were found to be important for the retrieval of statistical dataset. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AA11464847 |
書誌情報 |
情報処理学会論文誌データベース(TOD)
巻 14,
号 4,
p. 49-60,
発行日 2021-10-14
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
1882-7799 |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |