@article{oai:ipsj.ixsq.nii.ac.jp:00202733,
 author = {丹治, 遥 and 小嶋, 和徳 and 李, 時旭 and 南條, 浩輝 and 伊藤, 慶明 and Haruka, Tanji and Kazunori, Kojima and Shi-Wook, Lee and Hiroaki, Nanjo and Yoshiaki, Itoh},
 issue = {1},
 journal = {情報処理学会論文誌},
 month = {Jan},
 note = {音声中で検索したいキーワードが話されている箇所を特定する音声中の検索語検出(STD:Spoken Term Detection)の研究がさかんに行われている. 検索精度向上のために,先行研究として高順位候補を含むドキュメント内のすべての候補の照合距離を有利にする方式等が 提案されている. 本論文では,クエリを含む講演内で話されるトピックの内容に関連してクエリと共起する単語をクエリの関連語と呼び,関連語は当該講演内に複数回出現すると仮定する. クエリの関連語を特定するため,本論文ではWord2vecを用いた単語の分散表現が有効と考える. 音声ドキュメントの単語認識結果中の各単語をWord Vector化し,クエリのWord Vectorと比較し,類似度を求めることでクエリの関連語を取得する. 一方,未知語(OOV:Out-of-Vocabulary)クエリは単語認識結果に出現しないためWord Vectorを算出できないため,本論文ではWeb検索を併用する方式を採用し,クエリでWeb検索し得られたテキスト中の出現単語もWord2vecに用いてクエリの意味的情報を補い,未知語クエリのWord Vectorを算出できるようにする. これにより,未知語クエリに対応させることができ,既知語(IV:In Vocabulary), 未知語いずれのクエリでも関連語を的確に求められると考える. 以上のようにして,クエリの関連語を特定し,関連語を含むドキュメント内のすべての候補の距離を有利にすることで検索精度の向上を図る. NTCIR-10,12のFormal Runの2種のテストセットを用いて評価した結果,両テストセットで検索精度が向上した. また,先行方式と併用することでさらに精度が向上し,提案方式の有効性を確認できた., We propose a rescoring method using words related to a query for spoken term detection (STD). In this paper, we assume that words associated with the topic in speech data and co-occurring with the query are called “words related to the query,” and that the related words appear multiple times in the speech data. To identify the words related to the query, we introduce distributed expression of words obtained by Word2vec, and first convert each word in the word recognition results of speech data into a word vector. Each word vector is then compared with a word vector of the query. Words related to the query are determined by calculating the degree of similarity between the two word vectors. However, a word vector of an out-of-vocabulary (OOV) query cannot be obtained in this manner, since OOV queries do not appear in word-recognition results. For such OOV queries, we perform a Web search using the query, whereupon texts including the query are extracted. Recognition results of the speech data and the extracted texts are then combined and used for training of Word2vec. Distances to all candidates in the document, including words related to the query, are used advantageously. Experiments are conducted to evaluate the performance of the proposed method using open test collections of the NTCIR-10 and NTCIR-12 workshops. For retrieval accuracy, an improvement of 3.2 points in mean average precision was achieved using the proposed method.},
 pages = {103--112},
 title = {音声中の検索語検出におけるクエリの関連語を利用したリスコアリング方式},
 volume = {61},
 year = {2020}
}