2024-03-28T20:50:59Zhttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_oaipmhoai:ipsj.ixsq.nii.ac.jp:000625672023-04-27T10:00:04Z01164:03500:05611:05728
索引語の統計量を用いたXML部分文書検索法の組合せ利用とその効果Advantages of XML Fragment Retrieval Method Considering Query-Oriented StatisticsjpnXML,データ収集,分析http://id.nii.ac.jp/1001/00062567/Technical Reporthttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_action_common_download&item_id=62567&item_no=1&attribute_id=1&file_no=1Copyright (c) 2009 by the Information Processing Society of Japan同志社大学大学院文化情報学研究科同志社大学文化情報学部奈良先端科学技術大学院大学情報科学研究科欅, 惇志波多野, 賢治宮崎, 純本稿では,構造化文書に対する高精度検索のための重要部分抽出技術を取り入れた情報検索法について述べる.我々がこれまでに行った研究では,部分文書中に含まれるクエリキーワード数を考慮することで検索精度に改善が見られるという知見が得られたが,その一方で,部分文書に対してスコアリングを行う際に考慮すべき要件のうち,クエリに対する部分文書の適正性や部分文書のや大きさに関する要件は依然として満たせていなかった.そこで,提案手法ではこれらの問題に対して,テキストノードの持つ索引語数や頻度など,これまで情報検索の分野で用いられてきた文書から抽出される統計量を利用することで解決を目指す.評価実験を行った結果,提案手法は既存の構造化文書に対する検索技術よりも高い精度を示すということが判明した.さらに,提案手法は従来手法に比べて,テキストサイズの大きな部分文書ほど高スコアと判定される傾向があるという知見が得られた.In this paper, we report the advantages of a scoring method for searching XML fragment considering the query-oriented statistics. We believe that retrieved XML fragments should be scored considering not only traditional retrieved-document-oriented statistics like the tf-ipf scoring but also queryoriented ones such as constituent rate of query keywords and statistics of the query results. From our experimental evaluation, we could find that considering the query-oriented statistics helped to improve the retrieval accuracies of XML search engine. We also fould that the XML fragments containing large-size text nodes have a greater tendency to be given a large score compared with ones containing small-size text nodes.AN10114171研究報告情報学基礎(FI)2009-FI-951182009-07-212009-08-19