WEKO3
アイテム
加重等分解度特徴量を用いたテキスト独立型話者識別
https://ipsj.ixsq.nii.ac.jp/records/57021
https://ipsj.ixsq.nii.ac.jp/records/5702117a6d8fc-96f2-4bac-bbc2-71230fa3e87b
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2005 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2005-02-04 | |||||||
タイトル | ||||||||
タイトル | 加重等分解度特徴量を用いたテキスト独立型話者識別 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Text Independent Speaker Identification Using Weighted Linear Scale Spectral Feature | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
北陸先端科学技術大学院大学 情報科学研究所 | ||||||||
著者所属 | ||||||||
北陸先端科学技術大学院大学 情報科学研究所 | ||||||||
著者所属 | ||||||||
北陸先端科学技術大学院大学 情報科学研究所 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
School of Information Science, Japan Advanced Institute of Science and Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
School of Information Science, Japan Advanced Institute of Science and Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
School of Information Science, Japan Advanced Institute of Science and Technology | ||||||||
著者名 |
葭原, 康博
× 葭原, 康博
|
|||||||
著者名(英) |
Yasuhiro, YOSHIHARA
× Yasuhiro, YOSHIHARA
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 本研究では,話者の生理学的特徴を捉える音響特徴に着目して加重等分解度特徴量を提案し、さらに話者識別システムに取り込み,話者識別を行った.音声の個人性については,口・鼻腔の音響結合度合いによりスペクトル上の300Hzと3000Hz付近において極零対が生じ,または,梨状窩の個人差により4000Hzから6000Hzまでの範囲において特徴的スペクトルが形成されているとの音声生成の研究報告があった.話者の生理学的特徴を取り入れるため上記の周波数領域を局部細分化して話者認識を行ったところ,高い識別率を得るために,メルフィルタのバンドの最適な細分割数は,高周波数領域において高くなる傾向になることがわかった.この結果は,話者個人特徴の詳細を捉えるため,全周波数領域でメルスケールより線形スケールの方が有効であろうということを示唆する.この知見をもとに,本研究では,線形スケールを用い上記の生理学的特徴に関わる周波数領域に大きな重み係数をつけDCTを施して音響特徴量(加重等分解度特徴量)を抽出した.提案した音響特徴量をMFCCと組み合わせたハイブリッドGMMモデルでは,従来のGMMモデルより話者識別率が顕著に改善された. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | In this research, we proposed a Weighted Liner Scale Spectral Feature to emphasize speakers' physiological individuals, and applied the proposed feature into a speaker identification system by combining it with the traditional Mel Frequency Cepstrum coefficient (MFCC). Studies of speech production reported that the coupling degree of the nasal and oral cavities can induce pole-zero pairs around 300 Hz and 3000 Hz, and the piriform fossa, a side branch of the vocal tract, shapes the spectra in the region from 4000 Hz to 6000 Hz. A local subdivision method of the concerned frequency region has been proposed to utilize the physiological information in speaker recognition. The results indicated that to reach the optimal performance more subdivisions is required for higher frequency region than for lower frequency region. This suggested that for extracting the individual details the analysis with a liner scale in frequency domain may be more efficient than that of a log scale. Based on this finding, this study adopted liner scale sub-bands in frequency domain, weighted the frequency regions that are concerned with the physiological events, and then carried out the DCT on it to get the target feature, named Weighted Linear Scale Special Feature. As a result, the performance of speaker identification was greatly improved when combining the proposed feature with the conventional MFCC. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10442647 | |||||||
書誌情報 |
情報処理学会研究報告音声言語情報処理(SLP) 巻 2005, 号 12(2004-SLP-055), p. 23-28, 発行日 2005-02-04 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |