ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 研究報告
  2. 音声言語情報処理(SLP)
  3. 2024
  4. 2024-SLP-154

英語話者の合成音声検出に有効な音響特徴量の検討

https://ipsj.ixsq.nii.ac.jp/records/241633
https://ipsj.ixsq.nii.ac.jp/records/241633
bb4987ea-426e-4986-b3a0-f03ebb8231bf
名前 / ファイル ライセンス アクション
IPSJ-SLP24154013.pdf IPSJ-SLP24154013.pdf (1.3 MB)
Copyright (c) 2024 by the Institute of Electronics, Information and Communication Engineers This SIG report is only available to those in membership of the SIG.
SLP:会員:¥0, DLIB:会員:¥0
Item type SIG Technical Reports(1)
公開日 2024-12-05
タイトル
タイトル 英語話者の合成音声検出に有効な音響特徴量の検討
タイトル
言語 en
タイトル A study on Acoustic Features for Detection of Synthesized Speech of English Speakers
言語
言語 jpn
キーワード
主題Scheme Other
主題 ポスターセッション
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_18gh
資源タイプ technical report
著者所属
日本工業大学大学院電子情報メディア工学専攻
著者所属
日本工業大学基幹工学部電気電子通信工学科
著者所属(英)
en
Nippon Institute of Technology, Graduate School of Electrical and Information Media Engineering
著者所属(英)
en
Nippon Institute of Technology, Faculty of Fundamental Engineering
著者名 根本, 結菜

× 根本, 結菜

根本, 結菜

Search repository
大田, 健紘

× 大田, 健紘

大田, 健紘

Search repository
著者名(英) Yuna, Nemoto

× Yuna, Nemoto

en Yuna, Nemoto

Search repository
Kenko, Ota

× Kenko, Ota

en Kenko, Ota

Search repository
論文抄録
内容記述タイプ Other
内容記述 本研究では偽物音声(合成音声)の検出精度向上を目的として,合成音声検出に有効といわれている複数の音響特徴量の組み合わせによる機械学習を行い,それらの検出精度を比較した.音響特徴量として,メル周波数ケプストラム係数(MFCC),線形周波数ケプストラム係数(LFCC),定 Q ケプストラム係数(CQCC)などのケプストラム情報やメルスペクトル,リニアスペクトル,定 Q 変換といったスペクトル情報そして基本周波数を用いた.機械学習手法はランダムフォレストを用いて分類を行い,再現率の算出と分類を行う際に重要な音響特徴量およびその周波数帯を求めた.実験の結果,複数のケプストラム情報を組み合わせた場合よりも,複数のスペクトル情報を組み合わせた場合に再現率が高くなった.そして,分類に重要な周波数帯は基本周波数帯であった.
論文抄録(英)
内容記述タイプ Other
内容記述 In order to improve the detection accuracy of fake speech (synthesize speech), we performed machine learning using a combination of several acoustic features that are known to be effective in detecting synthesize speech, and compared their detection accuracy. As acoustic features, we used cepstral information such as Mel Frequency Cepstral Coefficient (MFCC), Linear Frequency Cepstral Coefficient (LFCC), Constant Q Cepstral Coefficient (CQCC), spectral information such as Mel spectrum, Linear spectrum, Constant Q transform, and fundamental frequency. The machine learning method used a random forest for classification, and the acoustic features and their frequency bands that were important for calculating the recall rate and classification were obtained. Experimental results showed that the recall rate was higher when spectral information was combined than when multiple cepstrum information was combined. The most important frequency band for classification was the fundamental frequency band.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AN10442647
書誌情報 研究報告音声言語情報処理(SLP)

巻 2024-SLP-154, 号 13, p. 1-5, 発行日 2024-12-05
ISSN
収録物識別子タイプ ISSN
収録物識別子 2188-8663
Notice
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-19 07:35:48.619202
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3