2024-03-29T13:51:29Zhttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_oaipmhoai:ipsj.ixsq.nii.ac.jp:000623502023-04-27T10:00:04Z01164:05159:05160:05696
日本語講演音声ドキュメント検索における索引付けの検討A Study of Indexing Units for Japanese Spoken Document Retrievaljpnhttp://id.nii.ac.jp/1001/00062350/Technical Reporthttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_action_common_download&item_id=62350&item_no=1&attribute_id=1&file_no=1Copyright (c) 2009 by the Information Processing Society of Japan龍谷大学理工学研究科龍谷大学理工学研究科龍谷大学理工学研究科重安, 幸治南條, 浩輝吉見, 毅彦自然言語による講演音声ドキュメント検索について述べる.このような検索タスクでは適切な索引付けが重要であり,本研究ではこれに焦点をあてる.音声ドキュメント検索においては音声認識が行われるため,音声認識誤りに頑健な索引語の研究が必要である.さらに日本語では,語と語の間にスペースがおかれず語の区切りがあいまいである.したがって索引単位の研究も重要である.これらの背景に基づき,日本語話し言葉コーパスの音声ドキュメント検索評価用テストコレクションを用いて索引単位と索引語の研究を行った.ベクトル空間モデルに基づく音声ドキュメント検索システムを構築し,形態素,N 文字連鎖,それらの組み合わせの索引単位を研究した.Spoken document retrieval (SDR) from Japanese lectures is addressed. For SDR, appropriate indexing is significant. Automatic speech recognition (ASR) is performed to make index terms, and studies of indexing terms which are robust to ASR errors are necessary. In Japanese text, no space is put between words, and word unit is not obvious. Thus, studies of indexing unit are also important. Based on the background, indexing unit and index terms are investigated. We constructed SDR system based on the vector space model. As for indexing unit, morpheme, character N-gram, and combination of them were investigated.AN10442647研究報告音声言語情報処理(SLP)2009-SLP-768162009-05-142009-08-19