WEKO3
アイテム
形態素情報と単語内位置情報を用いた 話し言葉音声認識のための音響モデル
https://ipsj.ixsq.nii.ac.jp/records/57285
https://ipsj.ixsq.nii.ac.jp/records/572852f9f2d5e-a700-42c1-b047-3209a4f82113
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2002 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2002-12-16 | |||||||
タイトル | ||||||||
タイトル | 形態素情報と単語内位置情報を用いた 話し言葉音声認識のための音響モデル | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Acoustic modeling using word contexts for spontaneous speech recognition | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
東京大学大学院情報理工学系研究科 | ||||||||
著者所属 | ||||||||
東京大学大学院情報理工学系研究科 | ||||||||
著者所属 | ||||||||
東京大学大学院情報理工学系研究科 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Information Science and Technology, The University of Tokyo | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Information Science and Technology, The University of Tokyo | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Information Science and Technology, The University of Tokyo | ||||||||
著者名 |
五十川, 賢造
× 五十川, 賢造
|
|||||||
著者名(英) |
Kenzo, Isogawa
× Kenzo, Isogawa
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 話し言葉における発声変形をモデル化するため、文脈決定木を用いた状態クラスタリングにおいて、音素コンテキストの情報以外に品詞情報を利用する方法と音素の単語内位置情報を利用する方法とを提案する。品詞情報を利用する方法では、話し言葉の音声データから推定した単語継続時間長をもとに、品詞を2つのクラスタに分類する。各音素についてクラスタ別に初期モデルを構築し、音素コンテキストに関する質問に加えて所属クラスタに関する質問を用いた決定木による状態クラスタリングを行う。単語内位置情報を利用する方法では、各音素について語頭か語末かそれ以外かを考慮した初期モデルを構築し、音素コンテキストに関する質問に加えて語頭語末に関する質問を用いた決定木による状態クラスタリングを行う。CSJ(Corpus of Spontaneous Japanese)コーパスを用いた連続音声認識実験を行った結果、品詞情報を利用した方法では単語正解精度がテスト話者7名の平均で最大で2.4ポイント向上し、単語内位置情報を用いたモデルでは単語正解精度が最大で6.1ポイント向上した。 | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | In this paper, we study state clustering using word contexts for speech recognition. In spontaneous speech, poorly articulated words often cause recognition error. To improve the recognition performance, we add two questions used in the phonetical decision tree based state clustering. One is a question about parts of speech, and the other is a question about the position of phones within a word. To apply the question about parts of speech, we classify parts of speech into two classes based on the word's duration estimated by using the corpus of spontaneous speech. After making HMMs for each class, we carry out state clustering using a context desicion tree with the questions about the classes. To apply questions about the position of phones within a word, we make HMMs for phones at the beginning of the word, those for phones at the ending of the word, and those for phones at the other positions, separately. Then we carry out state clustering using a context desicion tree with questions about phone case, the word accuracy improved by 2.4 points with the use of the former method, and it improved by 6.1 points with the use of the latter method. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10442647 | |||||||
書誌情報 |
情報処理学会研究報告音声言語情報処理(SLP) 巻 2002, 号 121(2002-SLP-044), p. 111-116, 発行日 2002-12-16 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |