WEKO3
アイテム
ケプストラムの声道長依存性に関する幾何学的考察
https://ipsj.ixsq.nii.ac.jp/records/56786
https://ipsj.ixsq.nii.ac.jp/records/5678674aac1f6-10b4-435d-8118-2ac083bed36d
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2007 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2007-12-20 | |||||||
タイトル | ||||||||
タイトル | ケプストラムの声道長依存性に関する幾何学的考察 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | A study of geometric dependency of cepstrum on vocal tract length | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
東京大学大学院新領域創成科学研究科 | ||||||||
著者所属 | ||||||||
東京大学大学院新領域創成科学研究科 | ||||||||
著者所属 | ||||||||
東京大学大学院新領域創成科学研究科 | ||||||||
著者所属 | ||||||||
東京大学大学院新領域創成科学研究科 | ||||||||
著者所属 | ||||||||
東京大学大学院情報理工学系研究科 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Frontier Sciences, The University of Tokyo | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Frontier Sciences, The University of Tokyo | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Frontier Sciences, The University of Tokyo | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Frontier Sciences, The University of Tokyo | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Information Science and Technology, The University of Tokyo | ||||||||
著者名 |
齋藤, 大輔
× 齋藤, 大輔
|
|||||||
著者名(英) |
Daisuke, SAITO
× Daisuke, SAITO
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 本報では,ケプストラムベクトルの方向成分が声道長の変化に対して強く依存していることを理論的,実験的に示す.さらにこの依存性が n 次元のケプストラム空間における回転として表出されることを示す.音声認識の研究においては,年齢や性別の違いといった歪みを取り除くため,声道長正規化(VTLN)とよばれる技術が広く用いられている.VTLN はスペクトルドメインにおける周波数ウォーピングによって実現されるが,ケプストラムドメインでは線形変換 c=Ac として表現する事ができる.しかしこの変換行列 A の幾何学的な性質に関しては今まで十分に議論されてこなかった本研究では n 次元空間における幾何学を通して,これらの変換が全てのケプストラムベクトルをおよそ等しく回転させる事を示す.さらに分析再合成音を用いて,実際にケプスラムベクトルが回転している事を実験的に確認した.身長 180cm の話者と身長 120cm の話者を比較した場合,そのケプストラムベクトルがおよそ直交していることがわかった.本報の結果から従来の音声認識システムが子供の声のような特異音声を苦手とする一因を定量的に示す事ができた. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | In this paper, we theoretically and experimentally prove that the direction of cepstrum vectors strongly depends on vocal tract length and that this dependency is represented as rotation in the n dimensional cepstrum space. In speech recognition studies, vocal tract length normalization (VTLN) techniques are widely used to cancel age- and gender-differences. In VTLN, a frequency warping is often carried out and it can be implemented as a linear transformation in a cepstrum space; c = Ac. However, the geometric properties of this transformation matrix A have not been well discussed. In this study, its properties are made clear using n dimensional geometry and it is shown that the matrix rotates any cepstrum vector similarly and apparently. Experimental results using resynthesized speech demonstrate that cepstrum vectors extracted from a speaker of 180 [cm] in height and those from another speaker of 120 [cm] in height are reasonably orthogonal. This result clarifies one of the reasons why children's speech is very difficult for conventional speech recognizers to deal with adequately. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10442647 | |||||||
書誌情報 |
情報処理学会研究報告音声言語情報処理(SLP) 巻 2007, 号 129(2007-SLP-069), p. 189-194, 発行日 2007-12-20 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |