WEKO3
アイテム
高次の音素環境依存モデルを統合した 重み付き有限状態トランスデューサーの効率的生成法
https://ipsj.ixsq.nii.ac.jp/records/57079
https://ipsj.ixsq.nii.ac.jp/records/5707971c67203-1162-4fcc-89fb-cf1f756d6f0b
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2004 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2004-12-22 | |||||||
タイトル | ||||||||
タイトル | 高次の音素環境依存モデルを統合した 重み付き有限状態トランスデューサーの効率的生成法 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Efficient Generation of high - order context - dependent Weighted Finite State Transducers for Speech Recognition | |||||||
言語 | ||||||||
言語 | eng | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
日本電信電話(株)NTTコミュニケーション科学基礎研究所 | ||||||||
著者所属 | ||||||||
日本電信電話(株)NTTコミュニケーション科学基礎研究所 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Nippon Telegraph and Telephone Corporation, NTT Communication Science Laboratories | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Nippon Telegraph and Telephone Corporation, NTT Communication Science Laboratories | ||||||||
著者名 |
シュスター・マイク
堀, 貴明
× シュスター・マイク 堀, 貴明
|
|||||||
著者名(英) |
Mike, Schuster
Takaaki, Hori
× Mike, Schuster Takaaki, Hori
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 本稿では,トライフォン(triphone)を越える高次の音素環境依存モデルを統合した重み付き有限状態トランスデューサ(Weighted Finite State Transducer: WFST)を効率的に生成するアルゴリズムについて述べる.音声認識用のWFSTを構築する従来の手法では,高次の音素環境依存モデルを扱う際にいくつかの問題に直面する.そして,場合によっては計算量やメモリの制約から構築そのものが不可能になることがある.本稿では,まず,従来の構築方法の非効率性について議論した後で,音声認識用WFSTの構築において必要とされる,HMM状態列を音素系へ変換するWFSTを音素決定木から直接生成する効率的なアルゴリズムを提案する.そして,そのアルゴリズムが非常に高速かつ省メモリで動作し,かつ,最終的に構築されるWFSTのサイズをも小さくすることを示す.提案手法により構築されたWFSTを,日本語話し言葉コーパスを用いて,サイズ,認識精度,認識速度の観点から評価した.そして,高次の音素環境依存モデルを組み込んだ単語内・単語間の音素環境を考慮するワンパス時間同期探索が容易に実現され,かつ,それがtriphoneの場合に比べてわずかなオーバヘッドで動作することを示す.最後に,単語内・単語間のquinphoneを適用した実時間音声認識が125MBのメモリかつ9%のサーチエラーで動作することを確認した. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | This paper describes an algorithm for efficient building of Weighted Finite State Transducers for speech recognition when high-order context-dependent models of order K > 3 (triphones) with tied states are used. After discussing some inefficiencies of the standard compilation method which make the use of high-order context-dependent models cumbersome and sometimes even impossible because of memory constraints, we show how an algorithm to build a part of the needed composed transducers directly from the decision trees in combination with an improved compilation process can lead to much faster, simpler and more memory-efficient compilation. In our case it also resulted in substantially final networks. With the described algorithm it is simple to use high-order full cross-word models with little overhead directly within a one-pass time-synchronous search, which we test comparing resulting final network sizes recognition rates and speed on a large, spontaneous Japanese speech database. Using the proposed algorithm it is possible to do real-time recognition using full cross-word quinphones with a large acoustic model in about 125MB of memory at about 9% search error. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10442647 | |||||||
書誌情報 |
情報処理学会研究報告音声言語情報処理(SLP) 巻 2004, 号 131(2004-SLP-054), p. 253-258, 発行日 2004-12-22 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |