WEKO3
アイテム
大規模言語モデルを用いた文書補強とリランキングによる統計データ検索
https://ipsj.ixsq.nii.ac.jp/records/239002
https://ipsj.ixsq.nii.ac.jp/records/239002a9cb800b-65f0-45e4-8826-27fc68d3e558
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]()
2026年9月4日からダウンロード可能です。
|
Copyright (c) 2024 by the Information Processing Society of Japan
|
|
非会員:¥660, IPSJ:学会員:¥330, IFAT:会員:¥0, DLIB:会員:¥0 |
Item type | SIG Technical Reports(1) | |||||||||
---|---|---|---|---|---|---|---|---|---|---|
公開日 | 2024-09-04 | |||||||||
タイトル | ||||||||||
タイトル | 大規模言語モデルを用いた文書補強とリランキングによる統計データ検索 | |||||||||
タイトル | ||||||||||
言語 | en | |||||||||
タイトル | Statistical Data Retrieval using Document Augmentation and Re-Ranking with Large Language Model | |||||||||
言語 | ||||||||||
言語 | jpn | |||||||||
キーワード | ||||||||||
主題Scheme | Other | |||||||||
主題 | 2B オーガナイズドセッション 偽情報対策技術 | |||||||||
資源タイプ | ||||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||||
資源タイプ | technical report | |||||||||
著者所属 | ||||||||||
京都産業大学情報理工学部情報理工学科 | ||||||||||
著者所属 | ||||||||||
京都産業大学情報理工学部情報理工学科 | ||||||||||
著者所属(英) | ||||||||||
en | ||||||||||
Faculty of Information Science and Engineering, Kyoto Sangyo University | ||||||||||
著者所属(英) | ||||||||||
en | ||||||||||
Faculty of Information Science and Engineering, Kyoto Sangyo University | ||||||||||
著者名 |
黒川, 博生
× 黒川, 博生
× 宮森, 恒
|
|||||||||
論文抄録 | ||||||||||
内容記述タイプ | Other | |||||||||
内容記述 | 統計データは,政府等が保有するオープンデータの一種であり,近年,社会問題となっているフェイクニュースに対処するための事実確認(ファクトチェック)への活用をはじめ,有効活用するためのアドホック検索基盤の重要性が高まっている.しかし,従来の統計データ検索では,文書長の短さや表記ゆれなどによる検索漏れ等により,十分なランキング性能を達成できていない.そこで,本稿では大規模言語モデルを用いた文書補強とリランキングによる統計データのアドホック検索手法を提案する.提案手法では,まず統計データから抽出された見出し,行名,列名,値に基づき,その内容説明を大規模言語モデルで生成することでメタデータを補強した文書を作成する.次に,補強された文書を利用してランキングを行い,最後に大規模言語モデルを用いて意味内容の類似に基づくリランキングを行う.評価実験の結果,提案手法は,文書補強およびリランキングを行わないベースラインと比較して, ランキング性能が nDCG@10 で 0.133 改善することを確認した. | |||||||||
論文抄録(英) | ||||||||||
内容記述タイプ | Other | |||||||||
内容記述 | Statistical data is a kind of open data held by governments and others, and its use for fact-checking to address the social problem such as fake news. Therefore, the importance of ad-hoc search infrastructure for effective use of data is increasing. However, traditional statistical data search systems have not achieved sufficient ranking performance due to omission in a search caused by short document length and spelling variations. In this paper, we proprose a statistical data ad-hoc search method using document augmentation and re-ranking with large language model. First, we create a document with augmented metadata by generating descriptions of the contents on the basis of extracted headers, row names, column names, and values from the statistical data using a large language model. Next, we rank the augmented documents and finally re-rank them based on semantic similarity using a large language model. As a result of the evaluation experiment, we confirmed that the proposed method improves the ranking performance by 0.133 in nDCG@10 compared to the baseline that does not perform document augmentation and re-ranking. | |||||||||
書誌レコードID | ||||||||||
収録物識別子タイプ | NCID | |||||||||
収録物識別子 | AN10114171 | |||||||||
書誌情報 |
研究報告情報基礎とアクセス技術(IFAT) 巻 2024-IFAT-156, 号 13, p. 1-6, 発行日 2024-09-04 |
|||||||||
ISSN | ||||||||||
収録物識別子タイプ | ISSN | |||||||||
収録物識別子 | 2188-8884 | |||||||||
Notice | ||||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||||
出版者 | ||||||||||
言語 | ja | |||||||||
出版者 | 情報処理学会 |