WEKO3
アイテム
非言語的な要因に不変な音響的特徴を用いた中国語方言に基づく話者分類
https://ipsj.ixsq.nii.ac.jp/records/56606
https://ipsj.ixsq.nii.ac.jp/records/566061d641406-81b4-43e3-81d7-9ef5047aa9cd
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2008 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2008-12-02 | |||||||
タイトル | ||||||||
タイトル | 非言語的な要因に不変な音響的特徴を用いた中国語方言に基づく話者分類 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Dialect-based speaker classification of Chinese using acoustic features invariant with extra-linguistic factors | |||||||
言語 | ||||||||
言語 | eng | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
日本東京大学 | ||||||||
著者所属 | ||||||||
日本東京大学 | ||||||||
著者所属 | ||||||||
日本東京大学 | ||||||||
著者所属 | ||||||||
日本東京大学 | ||||||||
著者所属 | ||||||||
中国南開大学 | ||||||||
著者所属 | ||||||||
中国南開大学 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Univ. of Tokyo | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Univ. of Tokyo | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Univ. of Tokyo | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Univ. of Tokyo | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Nankai Univ. | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Nankai Univ. | ||||||||
著者名 |
馬学彬
× 馬学彬
|
|||||||
著者名(英) |
Xuebin, Ma
× Xuebin, Ma
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 現行の音声技術を利用した中国語方言に基づく話者の分類は、中国語方言自身の持つ複雑さや、方言音の音響的特徴が方言的情報だけでなく,性差、年齢差、個人差などの非言語的情報をも伝達することから容易ではない。本研究では、音声から非言語的情報を除去した発音の構造的表象を用いた方言話者分類法を提案する。この手法では、漢字音セットに基づく方言音の録音を経て、各話者は各人の発音構造としてモデリングされ、多数話者の方言的構造群はボトムアップクラスタリングにより分類される。本稿では、話者の多様性に対するロバスト性についても同様に検証する。ここでは我々が人工的に合成した巨人と子供の音声を用い、従来手法との比較実験を行う。実験の結果、中国語方言の事情にも合致し、また年齢、性別に対し高い独立性のある結果が得られた。 | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | Chinese dialects-based speaker classification using modern speech technologies is really a challenge, not only because the situation of Chinese dialects is very complicated, but also because acoustic features of utterances convey dialectal information together with extra-linguistic information such as age, gender, speaker, etc. In this paper, we propose a new speaker classification technique using structural representation of pronunciation, which was originally proposed to remove extra-linguistic information from speech. After collecting dialectal utterances of a selected set of Chinese characters, each speaker is modeled as his/her pronunciation structure. Then, all the dialectal structures are classified based on bottom-up clustering. We also test the proposed method especially in terms of robustness to speaker variability. Here, the utterances of simulated very tall and short speakers are classified to compare the proposed method and the conventional one. All the experimental results show linguistically-reasonable classifications and the high independence of age and gender. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10442647 | |||||||
書誌情報 |
情報処理学会研究報告音声言語情報処理(SLP) 巻 2008, 号 123(2008-SLP-074), p. 179-184, 発行日 2008-12-02 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |