WEKO3
アイテム
距離付きn-gramインデックスによる認識誤りと未知語に頑健な高速検索法
https://ipsj.ixsq.nii.ac.jp/records/70709
https://ipsj.ixsq.nii.ac.jp/records/707097f43b3f8-dd1f-46d8-876c-aaff34d6bee9
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2010 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2010-10-22 | |||||||
タイトル | ||||||||
タイトル | 距離付きn-gramインデックスによる認識誤りと未知語に頑健な高速検索法 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | High-Speed Spoken Document Retrieval method for Out-of-Vocabulary Term by n-gram Index with Distance | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | 一般講演 | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
豊橋技術科学大学 | ||||||||
著者所属 | ||||||||
豊橋技術科学大学 | ||||||||
著者所属 | ||||||||
豊橋技術科学大学 | ||||||||
著者所属 | ||||||||
豊橋技術科学大学 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Toyohashi University of Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Toyohashi University of Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Toyohashi University of Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Toyohashi University of Technology | ||||||||
著者名 |
岩見, 圭祐
× 岩見, 圭祐
|
|||||||
著者名(英) |
Keisuke, Iwami
× Keisuke, Iwami
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | ニュースや新聞記事のようにテキスト情報を含むものであれば既存のテキスト検索エンジンを用いることで,欲しい情報を高速に検索することができる.しかし,現在のところ音声ドキュメントに対しての有効な検索手法は確立されていない.その理由として挙げられるのが,未知語や認識誤りといった音声ドキュメント特有の問題である.本研究ではこれらの問題を解決し,音声ドキュメントに対して有効な検索手法について検討する.すなわち,音声ドキュメントを音節単位の認識で音節ラティス化し,音節の置換誤り,挿入誤りを考慮した n-gram でインデックス化しておく.クエリは脱落誤りを考慮した n-gram で検索する.また,認識結果の尤度に基づいてインデックスを削減する方法を提案する. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | We can find the information with an existing textual search engine if the target data consist of text information such as news and newspaper, but efficient spoken document retrieval (SDR) method is not currently the established, because spoken document has specific problems such as some recognition errors and out-of-vocabulary(OOV) terms. The aim of this study is to develop a robust SDR method. Spoken document is transformed to a syllable lattice by continuous syllable recognition and, then it is represented by the n-gram index with distance considering substitution errors and insertion errors. Deletion errors in recognition results are considered by the modification of query. In addition, we propose a method to reduce the index based on likelihood of recognition result. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10442647 | |||||||
書誌情報 |
研究報告音声言語情報処理(SLP) 巻 2010-SLP-83, 号 3, p. 1-6, 発行日 2010-10-22 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |