Item type |
Journal(1) |
公開日 |
2009-02-15 |
タイトル |
|
|
タイトル |
語彙制限のない音声文書検索における複数サブワードの統合----検索語彙に依存した検索性能推定指標の導入 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Integration of Plural Subword Models for Open Vocabulary Spoken Document Retrieval—Introducing a Pre-estimated Index of Retrieval Performance according to Each Query |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
特集:音声ドキュメント処理 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_6501 |
|
資源タイプ |
journal article |
その他タイトル |
|
|
その他のタイトル |
検索 |
著者所属 |
|
|
|
岩手県立大学 |
著者所属 |
|
|
|
岩手県立大学 |
著者所属 |
|
|
|
岩手県立大学 |
著者所属 |
|
|
|
筑波大学 |
著者所属 |
|
|
|
産業技術総合研究所 |
著者所属(英) |
|
|
|
en |
|
|
Iwate Prefectural University |
著者所属(英) |
|
|
|
en |
|
|
Iwate Prefectural University |
著者所属(英) |
|
|
|
en |
|
|
Iwate Prefectural University |
著者所属(英) |
|
|
|
en |
|
|
University of Tsukuba |
著者所属(英) |
|
|
|
en |
|
|
National Institute of Advanced Industrial Science and Technology |
著者名 |
伊藤, 慶明
岩田, 耕平
石亀, 昌明
田中, 和世
李, 時旭
|
著者名(英) |
Yoshiaki, Itoh
Kohei, Iwata
Masaaki, Ishigame
Kazuyo, Tanaka
Shi-wook, Lee
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
マルチメディア環境やハードディスクレコーダの普及にともない,ビデオに代表される音声文書データが大量に蓄積されるようになり,容易に検索できる機能が求められている.検索する際の検索語は特殊な言葉が用いられることが多く,検索語の語彙を制限しないことが望ましい.我々はサブワードを用いた語彙制限のない音声文書検索システムの実現を目指し,新しいサブワードモデルと,サブワードモデル間の統計的音響距離を用いた新しい検索方式を提案し,その有効性を検証した(岩田ら,2007).サブワードとしては,音声認識で一般的なmonophone,triphoneモデルに比べ,音素を時間軸上で精緻化した1/2音素モデル,1/3音素モデル,Sub-Phonetic Segmentモデルの方が音声文書検索性能において優位であった.本論文では,これらの複数のサブワードによる検索結果の統合方式の検討を行い,検索性能の向上を図る.まず,複数サブワードの結果を単純に線形統合する方式を提案する.次に,検索語によりサブワードの検索性能が異なることから,与えられた検索語の検索性能を,検索語に含まれるサブワードモデル系列の認識性能から推定し,検索性能推定指標として導入し,統合時の結合重みとして利用する方式を提案する.日本語話し言葉コーパスを用いた音声文書検索実験を通して,複数のサブワードモデルの検索結果の単純な統合によって,平均適合率が4.2%向上するのを検証できた.統合時に検索語の検索性能推定指標を導入し結合重みの設定を実験的に最適化すると平均適合率が7.4%向上した.検索性能推定指標を結合重みに直接利用することで重み設定を自動化した場合でも5.3%向上するのを確認でき,提案方式の有効性を検証できた. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
Due to the spread of multi-media environments and digital hard disc recorders, recently large quantities of spoken document, such as video data, are being stored. Therefore, a new function to retrieve this spoken data is needed. Because the query words used for information retrieval are often special terms, the query words should not be restricted to words available in the dictionaries of speech recognition systems. We have been developing an open vocabulary spoken document retrieval system based on subword models, and have already proposed new subword models and an acoustic distance measure between these models. We demonstrated the effectiveness of those approaches (Iwata, et al., 2007). The experimental results showed that the new subword models worked better than the monophone and triphone models that are the general models used in speech recognition. The new models are more sophisticated than the triphone models in the time axis, such as the half-phone model, one-third phone model and Sub-Phonetic Segment model. This paper investigates a method for integrating the results obtained from these plural subword models. We first propose the introduction of a pre-estimated index of retrieval performance according to each query word, because the retrieval performance of a given query depends on the type of subword used. The simple linear integration of the plural results improved the retrieval performance 4.2% at average precision in experiments for spoken document retrieval using the Corpus of Spontaneous Japanese. The introduction of the pre-estimated index of retrieval performance according to each query word improved the retrieval performance 7.4% at the maximum average precision when integration weighting factors were optimized in the experiments. An improvement of 5.3% was achieved when weighting factors were automatically determined by directly applying the proposed preestimated index to the weighting factors. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN00116647 |
書誌情報 |
情報処理学会論文誌
巻 50,
号 2,
p. 524-533,
発行日 2009-02-15
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
1882-7764 |