@techreport{oai:ipsj.ixsq.nii.ac.jp:00057079,
 author = {シュスター・マイク and 堀, 貴明 and Mike, Schuster and Takaaki, Hori},
 issue = {131(2004-SLP-054)},
 month = {Dec},
 note = {本稿では,トライフォン(triphone)を越える高次の音素環境依存モデルを統合した重み付き有限状態トランスデューサ(Weighted Finite State Transducer: WFST)を効率的に生成するアルゴリズムについて述べる.音声認識用のWFSTを構築する従来の手法では,高次の音素環境依存モデルを扱う際にいくつかの問題に直面する.そして,場合によっては計算量やメモリの制約から構築そのものが不可能になることがある.本稿では,まず,従来の構築方法の非効率性について議論した後で,音声認識用WFSTの構築において必要とされる,HMM状態列を音素系へ変換するWFSTを音素決定木から直接生成する効率的なアルゴリズムを提案する.そして,そのアルゴリズムが非常に高速かつ省メモリで動作し,かつ,最終的に構築されるWFSTのサイズをも小さくすることを示す.提案手法により構築されたWFSTを,日本語話し言葉コーパスを用いて,サイズ,認識精度,認識速度の観点から評価した.そして,高次の音素環境依存モデルを組み込んだ単語内・単語間の音素環境を考慮するワンパス時間同期探索が容易に実現され,かつ,それがtriphoneの場合に比べてわずかなオーバヘッドで動作することを示す.最後に,単語内・単語間のquinphoneを適用した実時間音声認識が125MBのメモリかつ9%のサーチエラーで動作することを確認した., This paper describes an algorithm for efficient building of Weighted Finite State Transducers for speech recognition when high-order context-dependent models of order K > 3 (triphones) with tied states are used. After discussing some inefficiencies of the standard compilation method which make the use of high-order context-dependent models cumbersome and sometimes even impossible because of memory constraints, we show how an algorithm to build a part of the needed composed transducers directly from the decision trees in combination with an improved compilation process can lead to much faster, simpler and more memory-efficient compilation. In our case it also resulted in substantially final networks. With the described algorithm it is simple to use high-order full cross-word models with little overhead directly within a one-pass time-synchronous search, which we test comparing resulting final network sizes recognition rates and speed on a large, spontaneous Japanese speech database. Using the proposed algorithm it is possible to do real-time recognition using full cross-word quinphones with a large acoustic model in about 125MB of memory at about 9% search error.},
 title = {高次の音素環境依存モデルを統合した 重み付き有限状態トランスデューサーの効率的生成法},
 year = {2004}
}