WEKO3
アイテム
音節連鎖モデルによる大語彙連続音声認識
https://ipsj.ixsq.nii.ac.jp/records/57176
https://ipsj.ixsq.nii.ac.jp/records/5717604b3085c-5ee7-496f-be7d-58efbe94b411
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2003 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2003-12-18 | |||||||
タイトル | ||||||||
タイトル | 音節連鎖モデルによる大語彙連続音声認識 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Large vocabulary continuous speech recognition by disyllable model | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
信州大学工学部 | ||||||||
著者所属 | ||||||||
信州大学工学部 | ||||||||
著者所属 | ||||||||
信州大学工学部 | ||||||||
著者所属 | ||||||||
セイコーエプソン株式会社 | ||||||||
著者所属 | ||||||||
セイコーエプソン株式会社 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Faculty of Engineering, Shinshu University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Faculty of Engineering, Shinshu University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Faculty of Engineering, Shinshu University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
SEIKO EPSON CORPORATION | ||||||||
著者所属(英) | ||||||||
en | ||||||||
SEIKO EPSON CORPORATION | ||||||||
著者名 |
池田, 太郎
× 池田, 太郎
|
|||||||
著者名(英) |
Taro, Ikeda
× Taro, Ikeda
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 本稿ではモーラモデルをベースとし,音節間の調音結合も実現する長いサブワード単位として音節連鎖モデルの検討を行なっている.全ての音節連鎖をモデル化するとモデル数が膨大となり推定精度の劣化を招くため,連続音節認識において誤った2音節連鎖から高頻度のものをモデルとして追加する.更に音節連鎖モデルの追加による学習データ不足に対応するためPTMと同様の分布共有を行なった.調音結合の影響をより強く受けると考えられる講演音声について提案法を検討した結果,誤り頻度100回以上の音節連鎖は,約300種で全誤りの約60%を占めることが分かった.この音節連鎖を音節モデルに追加することにより,単語正解制度は62.2%から64.4%に向上し,トライフォンモデルと比べ約1/3のパラメータ数で0.5%上回る認識性能が得られた. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | This paper proposes disyllable models to take into account of context dependency over longer phone sequence. Our sub-word models consist of both baseline monosyllable models and additional disyllable models. In our approach, we selected a subject of disyllables which causes a large part of recognition errors in continuous syllable recognition. Furthermore, to cope with limited database, we used phonetic tied-mixture (PTM) and modified minimum description length (MDL) criterion. The number of the disyllables with more than 100 errors was about 300, and they occupied about 60% of all errors. The proposed method outperformed a conventional triphone model in LVCSR on CSJ database. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10442647 | |||||||
書誌情報 |
情報処理学会研究報告音声言語情報処理(SLP) 巻 2003, 号 124(2003-SLP-049), p. 151-156, 発行日 2003-12-18 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |