WEKO3
アイテム
スペクトル変化量のピーク間隔・F0・MFCCを用いた歌声と朗読音声の自動識別システム
https://ipsj.ixsq.nii.ac.jp/records/80401
https://ipsj.ixsq.nii.ac.jp/records/80401b78529b2-f65f-43b2-8fe1-5a5e2769666b
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2012 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2012-01-27 | |||||||
タイトル | ||||||||
タイトル | スペクトル変化量のピーク間隔・F0・MFCCを用いた歌声と朗読音声の自動識別システム | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | A System for Automatic Discrimination between Singing and Speaking Voices on the Basis of Peak Interval of Spectral Change, F0, and MFCC | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | 歌声情報処理 | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
京都大学大学院情報学研究科 | ||||||||
著者所属 | ||||||||
金沢大学理工学域電子情報学類 | ||||||||
著者所属 | ||||||||
産業技術総合研究所 | ||||||||
著者所属 | ||||||||
京都大学大学院情報学研究科 | ||||||||
著者所属 | ||||||||
京都大学大学院情報学研究科 | ||||||||
著者所属 | ||||||||
京都大学大学院情報学研究科 | ||||||||
著者所属 | ||||||||
京都大学大学院情報学研究科 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Informatics, Kyoto University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
School of Electrical and Computer Engineering, College of Science and Engineering, Kanazawa University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
National Institute of Advanced Industrial Science and Technology (AIST) | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Informatics, Kyoto University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Informatics, Kyoto University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Informatics, Kyoto University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Informatics, Kyoto University | ||||||||
著者名 |
阿曽, 慎平
× 阿曽, 慎平
|
|||||||
著者名(英) |
Shimpei, Aso
× Shimpei, Aso
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 本稿では,歌声と朗読音声を識別するシステムについて述べる.入力は無雑音音声,出力は歌声と朗読音声それぞれの尤度 (連続値) である.従来,スペクトル包絡 (MFCC) と基本周波数 (F0) の時間変化に基づいた識別システムが報告されている.これらの特徴量に基づく識別器に,スペクトル変化量のピーク間隔という,音素継続時間に関連する特徴量に基づく識別器を加え,入力音声長に応じて各識別器への重みを変化させた.実験の結果,従来システムでは1秒の音声に対し 86.7% の精度であったのに対し,本システムでは 90.2% という結果を得た.本システムが実時間で動作するデモアプリケーションについても述べる. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | In this paper we describe a system that discriminates between singing and speaking voices. Given a clean speech signal, it outputs the likelihood of each of the singing and speaking voices. Previous systems use temporal transition of spectral envelope (MFCC) and fundamental frequency (F0) as discrimina- tion features. Our system adds peak interval of spectral change as a phoneme duration feature and weights these features according to the duration of the input speech signal. Experimental results with one-second speech signal show that our system achieves 90.2 % accuracy compared to 86.7 % with previous systems. We also describe a real-time application demonstrating our system. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10438388 | |||||||
書誌情報 |
研究報告音楽情報科学(MUS) 巻 2012-MUS-94, 号 13, p. 1-8, 発行日 2012-01-27 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |