Item type |
SIG Technical Reports(1) |
公開日 |
2024-12-05 |
タイトル |
|
|
タイトル |
英語話者の合成音声検出に有効な音響特徴量の検討 |
タイトル |
|
|
言語 |
en |
|
タイトル |
A study on Acoustic Features for Detection of Synthesized Speech of English Speakers |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
ポスターセッション |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
日本工業大学大学院電子情報メディア工学専攻 |
著者所属 |
|
|
|
日本工業大学基幹工学部電気電子通信工学科 |
著者所属(英) |
|
|
|
en |
|
|
Nippon Institute of Technology, Graduate School of Electrical and Information Media Engineering |
著者所属(英) |
|
|
|
en |
|
|
Nippon Institute of Technology, Faculty of Fundamental Engineering |
著者名 |
根本, 結菜
大田, 健紘
|
著者名(英) |
Yuna, Nemoto
Kenko, Ota
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
本研究では偽物音声(合成音声)の検出精度向上を目的として,合成音声検出に有効といわれている複数の音響特徴量の組み合わせによる機械学習を行い,それらの検出精度を比較した.音響特徴量として,メル周波数ケプストラム係数(MFCC),線形周波数ケプストラム係数(LFCC),定 Q ケプストラム係数(CQCC)などのケプストラム情報やメルスペクトル,リニアスペクトル,定 Q 変換といったスペクトル情報そして基本周波数を用いた.機械学習手法はランダムフォレストを用いて分類を行い,再現率の算出と分類を行う際に重要な音響特徴量およびその周波数帯を求めた.実験の結果,複数のケプストラム情報を組み合わせた場合よりも,複数のスペクトル情報を組み合わせた場合に再現率が高くなった.そして,分類に重要な周波数帯は基本周波数帯であった. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
In order to improve the detection accuracy of fake speech (synthesize speech), we performed machine learning using a combination of several acoustic features that are known to be effective in detecting synthesize speech, and compared their detection accuracy. As acoustic features, we used cepstral information such as Mel Frequency Cepstral Coefficient (MFCC), Linear Frequency Cepstral Coefficient (LFCC), Constant Q Cepstral Coefficient (CQCC), spectral information such as Mel spectrum, Linear spectrum, Constant Q transform, and fundamental frequency. The machine learning method used a random forest for classification, and the acoustic features and their frequency bands that were important for calculating the recall rate and classification were obtained. Experimental results showed that the recall rate was higher when spectral information was combined than when multiple cepstrum information was combined. The most important frequency band for classification was the fundamental frequency band. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2024-SLP-154,
号 13,
p. 1-5,
発行日 2024-12-05
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |