WEKO3
アイテム
音声情報案内システムにおけるBag-of-Wordsを用いた無効入力の棄却
https://ipsj.ixsq.nii.ac.jp/records/90263
https://ipsj.ixsq.nii.ac.jp/records/90263cbc0ba47-bbfd-4ef8-833e-c2e11d4bba8c
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2013 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | Journal(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2013-02-15 | |||||||
タイトル | ||||||||
タイトル | 音声情報案内システムにおけるBag-of-Wordsを用いた無効入力の棄却 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Invalid Input Rejection Using Bag-of-Words for Speech-oriented Guidance System | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | [特集:音声ドキュメント処理] 音声情報案内システム,無効入力棄却,Bag-of-Words | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_6501 | |||||||
資源タイプ | journal article | |||||||
著者所属 | ||||||||
奈良先端科学技術大学院大学 | ||||||||
著者所属 | ||||||||
奈良先端科学技術大学院大学 | ||||||||
著者所属 | ||||||||
奈良先端科学技術大学院大学 | ||||||||
著者所属 | ||||||||
奈良先端科学技術大学院大学 | ||||||||
著者所属 | ||||||||
岡山大学 | ||||||||
著者所属 | ||||||||
統計数理研究所 | ||||||||
著者所属 | ||||||||
奈良先端科学技術大学院大学 | ||||||||
著者所属 | ||||||||
奈良先端科学技術大学院大学 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Nara Institute of Science and Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Nara Institute of Science and Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Nara Institute of Science and Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Nara Institute of Science and Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Okayama University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
The Institute of Statistical Mathematics | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Nara Institute of Science and Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Nara Institute of Science and Technology | ||||||||
著者名 |
真嶋温佳
× 真嶋温佳
|
|||||||
著者名(英) |
Haruka, Majima
× Haruka, Majima
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 実環境における音声認識を用いた情報案内システムでは,雑音等の非音声やユーザ同士の背景会話など,システムへの入力として不適切な入力が存在する.これらの入力はシステムの誤作動・誤認識の原因となるので,システムへの入力として適切な入力(有効入力)と不適切な入力(無効入力)の識別を行い,無効入力を棄却することにより,無効入力に対する応答処理を行わないことが重要である.従来,有効入力と無効入力との識別には,メル周波数ケプストラム係数などの音響的特徴量によるGMM(Gaussian Mixture Model)が用いられる.しかし,入力データの音声認識結果から得られる言語的な情報を使うことにより,システムのタスクを考えたうえで有効入力と無効入力の識別が可能になると考えられる.そこで本論文では,音響特徴量にBag-of-Words(BOW)を言語的特徴量として併用した無効入力の識別を検討した.識別手法としては,サポートベクタマシン(SVM)および最大エントロピー法を用いた.実験には実環境音声情報案内システム「たけまるくん」の入力データを用いた.SVMによる識別結果では,GMMによる音響尤度のみを用いた場合に比べて,BOWを用いた場合,F尺度を82.19%から85.41%に改善することができた.さらに,GMMによる音響尤度,発話時間,SNRを組み合わせた特徴量にBOWを追加することで,F尺度を86.58%まで改善することができた.詳細な分析の結果,BOWは特に無効入力の誤受理を減らす効果があることが示された. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | On a real environment speech-oriented information guidance system, a valid and invalid input discrimination is important as invalid inputs such as noise, laugh, cough and utterances between users lead to unpredictable system responses. Generally, acoustic features such as MFCC (Mel-Frequency Cepstral Coefficient) are used for discrimination. Comparing acoustic likelihoods of GMMs (Gaussian Mixture Models) from speech data and noise data is one of the typical methods. In addition to that, using linguistic features, such as speech recognition result, is considered to improve discrimination accuracy as it reflects the task-domain of invalid inputs and meaningless recognition results from noise inputs. In this paper, we introduce Bag-of-Words (BOW) as a feature to discriminate between valid and invalid inputs. Support Vector Machine (SVM) and Maximum Entropy method (ME) are also employed to realize robust classification. We experimented the methods using real environment data obtained from the guidance system “Takemaru-kun.” By applying BOW on SVM, the F-measure is improved to 85.09%, from 82.19% when using GMMs. In addition, experiments using features combining BOW with acoustic likelihoods from GMMs, Duration and SNR were conducted, improving the F-measure to 86.58%. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN00116647 | |||||||
書誌情報 |
情報処理学会論文誌 巻 54, 号 2, p. 443-451, 発行日 2013-02-15 |
|||||||
ISSN | ||||||||
収録物識別子タイプ | ISSN | |||||||
収録物識別子 | 1882-7764 |