WEKO3
アイテム
サブバンド領域での音声波形生成
https://ipsj.ixsq.nii.ac.jp/records/101384
https://ipsj.ixsq.nii.ac.jp/records/10138498da3abc-2cdf-4e3e-a7ae-0e42c40bd9f8
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]()
2100年1月1日からダウンロード可能です。
|
Copyright (c) 2014 by the Institute of Electronics, Information and Communication Engineers This SIG report is only available to those in membership of the SIG.\n
|
|
MUS:会員:¥0, DLIB:会員:¥0 |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2014-05-17 | |||||||
タイトル | ||||||||
タイトル | サブバンド領域での音声波形生成 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Speech waveform generation on subband domain | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | 研究紹介 | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
株式会社KDDI研究所 | ||||||||
著者所属 | ||||||||
株式会社KDDI研究所 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
KDDI R&D Laboratories, Inc. | ||||||||
著者所属(英) | ||||||||
en | ||||||||
KDDI R&D Laboratories, Inc. | ||||||||
著者名 |
西澤, 信行
× 西澤, 信行
|
|||||||
著者名(英) |
Nobuyuki, Nishizawa
× Nobuyuki, Nishizawa
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | HMM 音声合成等の分析合成方式に基づく音声合成システムにおける波形生成処理を高速化するため,MPEG オーディオ符号化で用いられるサブバンド符号化技術を応用し,サブバンド符号領域で波形生成処理を行う方法を紹介する HMM 音声合成技術に基づく音声合成システムは小さいフットプリントで比較的高い品質の音声を合成できるが,波形生成処理で必要な処理量が,従来の波形接続合成で必要な処理量よりも大きくなるという課題がある.組み込み向けのシステム等では低演算量であることが求められることも多いため,我々は,サブバンド符号化技術を応用した波形生成処理手法を提案している.提案手法では正弦波と帯域分割された白色雑音を組み合わせて音声波形を生成するが,このような帯域制限された波形に対してサブバンド符号化を行うと,スパースなサブバンド符号ベクトルが得られることから,同様の処理を時間領域で行った場合よりも,サブバンド符号の復号処理を考慮してなお高速な処理を実現することができるまた,提案手法をメルケプストラムに基づく HMM 音声合成システムに適用する際に必要となる,スペクトル包絡特性の計算処理に,サブバンド符号の復号で用いられる高速離散コサイン変換アルゴリズムを用いる方法についても紹介する. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | To reduce the computational cost for waveform generation in speech synthesis based on analysis-synthesis systems like HMM-based speech synthesizers, a method based on the subband coding, which is also used in MPEG Audio, is introduced. In the method, signal processing is performed on the subband domain rather than the time domain. Although the HMM-based speech synthesis can generate relatively high quality sound in a small footprint, the computational cost for the waveform generation process is higher than that of the conventional concatenative speech synthesis directly using waveform segments. Since a low amount of computations is often required in small systems such as embedded systems, we proposed the subband-coding-based method to reduce the computational cost in our former studies. In the method, speech waveformsare generated by combining sinusoids and band-decomposed white noises. Because subband code vectors for such waveforms result in sparse vectors, the computational cost can be reduced by processing on the subband domain even where the cost for decoding of the subband code vectors is taken into account. Moreover, a method for the computation of spectral convolutions from melcepstra using a fast discrete cosine transformation algorithm is also introduced. It would be required in HMM-based speech synthesizers with the proposed waveform generation method in practice. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10438388 | |||||||
書誌情報 |
研究報告音楽情報科学(MUS) 巻 2014-MUS-103, 号 67, p. 1-6, 発行日 2014-05-17 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |