ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 研究報告
  2. 情報基礎とアクセス技術(IFAT)
  3. 2024
  4. 2024-IFAT-156

大規模言語モデルを用いた文書補強とリランキングによる統計データ検索

https://ipsj.ixsq.nii.ac.jp/records/239002
https://ipsj.ixsq.nii.ac.jp/records/239002
a9cb800b-65f0-45e4-8826-27fc68d3e558
名前 / ファイル ライセンス アクション
IPSJ-IFAT24156013.pdf IPSJ-IFAT24156013.pdf (1.1 MB)
 2026年9月4日からダウンロード可能です。
Copyright (c) 2024 by the Information Processing Society of Japan
非会員:¥660, IPSJ:学会員:¥330, IFAT:会員:¥0, DLIB:会員:¥0
Item type SIG Technical Reports(1)
公開日 2024-09-04
タイトル
タイトル 大規模言語モデルを用いた文書補強とリランキングによる統計データ検索
タイトル
言語 en
タイトル Statistical Data Retrieval using Document Augmentation and Re-Ranking with Large Language Model
言語
言語 jpn
キーワード
主題Scheme Other
主題 2B オーガナイズドセッション 偽情報対策技術
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_18gh
資源タイプ technical report
著者所属
京都産業大学情報理工学部情報理工学科
著者所属
京都産業大学情報理工学部情報理工学科
著者所属(英)
en
Faculty of Information Science and Engineering, Kyoto Sangyo University
著者所属(英)
en
Faculty of Information Science and Engineering, Kyoto Sangyo University
著者名 黒川, 博生

× 黒川, 博生

黒川, 博生

Search repository
宮森, 恒

× 宮森, 恒

宮森, 恒

Search repository
論文抄録
内容記述タイプ Other
内容記述 統計データは,政府等が保有するオープンデータの一種であり,近年,社会問題となっているフェイクニュースに対処するための事実確認(ファクトチェック)への活用をはじめ,有効活用するためのアドホック検索基盤の重要性が高まっている.しかし,従来の統計データ検索では,文書長の短さや表記ゆれなどによる検索漏れ等により,十分なランキング性能を達成できていない.そこで,本稿では大規模言語モデルを用いた文書補強とリランキングによる統計データのアドホック検索手法を提案する.提案手法では,まず統計データから抽出された見出し,行名,列名,値に基づき,その内容説明を大規模言語モデルで生成することでメタデータを補強した文書を作成する.次に,補強された文書を利用してランキングを行い,最後に大規模言語モデルを用いて意味内容の類似に基づくリランキングを行う.評価実験の結果,提案手法は,文書補強およびリランキングを行わないベースラインと比較して, ランキング性能が nDCG@10 で 0.133 改善することを確認した.
論文抄録(英)
内容記述タイプ Other
内容記述 Statistical data is a kind of open data held by governments and others, and its use for fact-checking to address the social problem such as fake news. Therefore, the importance of ad-hoc search infrastructure for effective use of data is increasing. However, traditional statistical data search systems have not achieved sufficient ranking performance due to omission in a search caused by short document length and spelling variations. In this paper, we proprose a statistical data ad-hoc search method using document augmentation and re-ranking with large language model. First, we create a document with augmented metadata by generating descriptions of the contents on the basis of extracted headers, row names, column names, and values from the statistical data using a large language model. Next, we rank the augmented documents and finally re-rank them based on semantic similarity using a large language model. As a result of the evaluation experiment, we confirmed that the proposed method improves the ranking performance by 0.133 in nDCG@10 compared to the baseline that does not perform document augmentation and re-ranking.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AN10114171
書誌情報 研究報告情報基礎とアクセス技術(IFAT)

巻 2024-IFAT-156, 号 13, p. 1-6, 発行日 2024-09-04
ISSN
収録物識別子タイプ ISSN
収録物識別子 2188-8884
Notice
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-19 08:25:30.943844
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3