WEKO3
アイテム
音声スタータ:有声休止による発話開始の指定が可能な音声入力インタフェース
https://ipsj.ixsq.nii.ac.jp/records/9942
https://ipsj.ixsq.nii.ac.jp/records/99425a5b9ced-921f-489c-96ce-58d4d7902865
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2007 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | Journal(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2007-05-15 | |||||||
タイトル | ||||||||
タイトル | 音声スタータ:有声休止による発話開始の指定が可能な音声入力インタフェース | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Speech Starter: Speech Input Interface Capable of Endpoint Detection by Using Filled Pauses | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | 論文 | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_6501 | |||||||
資源タイプ | journal article | |||||||
その他タイトル | ||||||||
その他のタイトル | 音声言語 | |||||||
著者所属 | ||||||||
産業技術総合研究所 | ||||||||
著者所属 | ||||||||
早稲田大学 現在 株式会社東芝 | ||||||||
著者所属 | ||||||||
名古屋大学 現在 法政大学 | ||||||||
著者所属 | ||||||||
早稲田大学 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
National Institute of Advanced Industrial Science and Technology(AIST) | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Waseda University,Presently with Toshiba Corporation | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Nagoya University,Presently with Hosei University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Waseda University | ||||||||
著者名 |
後藤, 真孝
× 後藤, 真孝
|
|||||||
著者名(英) |
Masataka, Goto
× Masataka, Goto
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 本論文では ユーザが有声休止(母音の引き延ばし)によって言い淀んだ後に音声入力することで 雑音環境下での発話区間検出を容易にする「音声スタータ」という音声インタフェース機能を提案する.通常の音声認識システムでは 入力音響信号から発話区間を検出した後に その区間に対して音声認識結果を得る.しかし非定常な雑音環境下では 頑健に発話区間を検出することが困難なため 音声認識誤りを生し?ることが多かった.音声スタータでは ユーザが「えー」や「あのー」のように有声休止を発話の先頭(発話区間の始端)で故意に発声することで システムに音声認識してほしい発話を明示的に指定することを可能にする.有声休止はハ?ワーの大きい母音が持続することから 雑音環境下でも頑健に検出でき 発話区間検出の精度を向上させることができる.さらに 音声スタータではマイク以外のデバイスが不要でハンズフリーな音声認識を実現でき 日常会話でも言い淀んでから話し始めることがよくあるためにユーサ?の負担も少ないという利点がある.実際に7種類の雑音環境下で音声認識実験をしたところ 特にSNR10dBにおいて従来の他の発話区間検出手法を用いた場合よりも 音声スタータを用いた場合の方が検出性能が高かった. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | This paper describes a speech interface function, called Speech Starter, which enables noise-robust endpoint (utterance) detection by having a user utter a filled pause (a vowel-lengthening hesitation) at the beginning of each utterance. Most current speech recognizers first detect a utterance with its endpoints and then recognize the detected utterance. When speech recognizers are used in a noisy environment, a typical recognition error is caused by incorrect endpoints because their automatic detection is likely to be disturbed by non-stationary noise. Speech Starter enables a user to specify the beginning of each utterance with an intentional filled pause (e.g., “er...”), which is used as a trigger to start speech-recognition processes. Because a filled pause contains a lengthened vowel with high power and can be detected robustly in a noisy environment, practical robust endpoint detection is achieved. Speech Starter also offers the advantage of providing a hands-free speech interface with a microphone only, and it is user-friendly because a speaker tends to utter filled pauses at the beginning of utterances when hesitating in human-human communication. Experimental results with seven different noisy environments show that Speech Starter achieved the higher detection performance than conventional endpoint detection methods, especially at the SNR of 10 dB. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN00116647 | |||||||
書誌情報 |
情報処理学会論文誌 巻 48, 号 5, p. 2001-2011, 発行日 2007-05-15 |
|||||||
ISSN | ||||||||
収録物識別子タイプ | ISSN | |||||||
収録物識別子 | 1882-7764 |