WEKO3
アイテム
スペクトル包絡と基本周波数の時間変化を利用した歌声と朗読音声の識別
https://ipsj.ixsq.nii.ac.jp/records/10271
https://ipsj.ixsq.nii.ac.jp/records/102711f6a2266-9160-4a05-8da4-37b53453c552
| 名前 / ファイル | ライセンス | アクション |
|---|---|---|
|
|
Copyright (c) 2006 by the Information Processing Society of Japan
|
|
| オープンアクセス | ||
| Item type | Journal(1) | |||||||
|---|---|---|---|---|---|---|---|---|
| 公開日 | 2006-06-15 | |||||||
| タイトル | ||||||||
| タイトル | スペクトル包絡と基本周波数の時間変化を利用した歌声と朗読音声の識別 | |||||||
| タイトル | ||||||||
| 言語 | en | |||||||
| タイトル | Discrimination between Singing and Speaking Voices Using a Spectral Envelope and a Fundamental Frequency Derivative | |||||||
| 言語 | ||||||||
| 言語 | jpn | |||||||
| キーワード | ||||||||
| 主題Scheme | Other | |||||||
| 主題 | 特集:情報処理技術のフロンティア | |||||||
| 資源タイプ | ||||||||
| 資源タイプ識別子 | http://purl.org/coar/resource_type/c_6501 | |||||||
| 資源タイプ | journal article | |||||||
| その他タイトル | ||||||||
| その他のタイトル | 音楽情報 | |||||||
| 著者所属 | ||||||||
| 名古屋大学大学院情報科学研究科 | ||||||||
| 著者所属 | ||||||||
| 産業技術総合研究所 | ||||||||
| 著者所属 | ||||||||
| 名古屋大学大学院情報科学研究科 現在,法政大学情報科学部 | ||||||||
| 著者所属 | ||||||||
| 名古屋大学大学院情報科学研究科 | ||||||||
| 著者所属(英) | ||||||||
| en | ||||||||
| Graduate School of Information Science, Nagoya University | ||||||||
| 著者所属(英) | ||||||||
| en | ||||||||
| National Institute of Advanced Industrial Science and Technology (AIST) | ||||||||
| 著者所属(英) | ||||||||
| en | ||||||||
| Graduate School of Information Science, Nagoya University,Presently with Faculty of Computer and Information Sciences, Hosei University | ||||||||
| 著者所属(英) | ||||||||
| en | ||||||||
| Graduate School of Information Science, Nagoya University | ||||||||
| 著者名 |
大石康智
後藤, 真孝
伊藤, 克亘
武田, 一哉
× 大石康智 後藤, 真孝 伊藤, 克亘 武田, 一哉
|
|||||||
| 著者名(英) |
Yasunori, Ohishi
Masataka, Goto
Katunobu, Itou
Kazuya, Takeda
× Yasunori, Ohishi Masataka, Goto Katunobu, Itou Kazuya, Takeda
|
|||||||
| 論文抄録 | ||||||||
| 内容記述タイプ | Other | |||||||
| 内容記述 | スペクトル包絡と基本周波数の時間変化を利用した歌声と朗読音声の識別について検討する.聴取実験の結果,人間は200 ms,1 s の音声信号に対して,それぞれ70.0%,99.7%で歌声と朗読音声の識別が可能であった.また,識別に影響する音響的特徴について調査するために,短時間のスペクトルの特徴,また韻律を変形させた音声信号を聴取させたところ,それぞれの特徴が相補的に識別の手がかりになることを確認した.この結果より,短時間,長時間の音声信号に対して,それぞれ異なる特徴が識別に影響するということを想定し,スペクトル包絡(MFCC)と基本周波数の時間変化の2 つの尺度に基づく識別器を設計した.このとき,入力音声信号が1 s よりも長い場合,基本周波数の時間変化を特徴量として利用した方がスペクトル包絡を特徴量とするよりも識別性能が高い.特に,発声開始より2 s の音声に対して85.0%の歌声と朗読音声の識別が可能であった.一方,入力音声信号が1 s よりも短い場合,スペクトル包絡の違いを識別に利用した方が基本周波数の時間変化を利用するよりも識別性能が高い.最終的に,2 つの尺度を単純に統合することによって2 s の音声に対して87.3%の識別率を得ることができた. | |||||||
| 論文抄録(英) | ||||||||
| 内容記述タイプ | Other | |||||||
| 内容記述 | In this paper, we discuss the discrimination between singing and speaking voices by using a spectral envelope and a fundamental frequency (F0, perceived as pitch) derivative of voice signals. According to the results of our preliminary subjective experiments, listeners distinguish between singing and speaking voices with the accuracy of 70.0% for 200 ms long signals and 99.7% for 1 second long signals. To examine how humans discriminate between these two voices, we then conducted subjective experiments with singing and speaking voice stimuli whose voice quality and prosody were systematically distorted by using signal processing techniques. The experimental results suggested that spectral and prosodic cues complementarily contributed to the perceptual judgments. By hypothesizing that listeners depend on different cues according to the length of stimuli, we propose an automatic vocal style discriminator that can distinguish between singing and speaking voices by using two measures: a spectral envelope (MFCC) and an F0 derivative. In our experimental results, when voice signals longer than one second are discriminated, the F0-based measure performs better than the MFCC-based measure. On the other hand, when voice signals shorter than one second are discriminated, the MFCC-based measure performs better than the F0-based measure. While the discrimination accuracy with the F0-based measure is 85.0% for two-second signals, simple combination of the two measures improves it by 2.3% for two-second signals. | |||||||
| 書誌レコードID | ||||||||
| 収録物識別子タイプ | NCID | |||||||
| 収録物識別子 | AN00116647 | |||||||
| 書誌情報 |
情報処理学会論文誌 巻 47, 号 6, p. 1822-1830, 発行日 2006-06-15 |
|||||||
| ISSN | ||||||||
| 収録物識別子タイプ | ISSN | |||||||
| 収録物識別子 | 1882-7764 | |||||||