| Item type |
SIG Technical Reports(1) |
| 公開日 |
2023-02-21 |
| タイトル |
|
|
タイトル |
合成音検出を用いた話者照合のためのデータクレンジングの検討 |
| タイトル |
|
|
言語 |
en |
|
タイトル |
Data cleansing using synthetic speech detection for speaker verification |
| 言語 |
|
|
言語 |
jpn |
| キーワード |
|
|
主題Scheme |
Other |
|
主題 |
SP4:音声処理・評価 |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
| 著者所属 |
|
|
|
東京都立大学システムデザイン学部 |
| 著者所属 |
|
|
|
東京都立大学システムデザイン学部 |
| 著者所属 |
|
|
|
東京都立大学システムデザイン学部 |
| 著者所属(英) |
|
|
|
en |
|
|
Department of Computer Science, Tokyo Metropolitan University |
| 著者所属(英) |
|
|
|
en |
|
|
Department of Computer Science, Tokyo Metropolitan University |
| 著者所属(英) |
|
|
|
en |
|
|
Department of Computer Science, Tokyo Metropolitan University |
| 著者名 |
和田, 賢造
塩田, さやか
貴家, 仁志
|
| 著者名(英) |
Kenzo, Wada
Sayaka, Shiota
Hitoshi, Kiya
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
本研究では,なりすまし音声検出として提案されている合成音検出を実環境で収録された音声データのクレンジング技術に応用することについて検討する.近年,大規模な音声コーパスを構築する手段として,インターネット上の様々な音声データを自動収集する手段が広く用いられている.インターネット上の音声データは背景雑音や音楽など様々な音が重畳されており,単純な音声区間検出などでは目的の音声コーパスを作成することは難しい.そのため,収集目的に対して適切な動画だけを選択して音声コーパスを構築するための様々なデータクレンジング技術が適用されている.話者照合のための音声コーパス構築に必要なデータクレンジング技術として,単一話者による実発声であることの判定がある.しかし,従来法では合成音声と単一話者において分類精度が不十分であった.そこで本研究では,なりすまし音声検出を合成音声と実発話の分類を行うデータクレンジング技術の一つとして応用することを検討した.実験では,シミュレーションによる合成音声と実発話の音声データ及び,実環境下で収集された音声データの二つを評価データとして用い合成音検出の評価を行った.実験結果より,なりすまし音声検出のデータクレンジング技術としての性能と今後の課題について報告する. |
| 論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
In this paper, we investigate the performances of synthetic speech detection, which has been proposed as a method for spoofing detection, to the cleansing of speech data recorded in real environments. Recently, the automatic collection of various speech data from the Internet has been widely utilized to build a large speech corpus. Since the audio data on the Internet contains a variety of sounds, such as background noise and music, it is difficult for voice activity detection to contribute to creating a target audio corpus. Thus, various data cleansing techniques have been applied to select only appropriate videos and build a speech corpus. One of the techniques required for speaker verification is to determine that the speech is uttered by a single speaker. However, conventional methods have limitations in terms of classification accuracy, especially for distinguishing between synthetic speech and single-speaker speech. Therefore, the application of spoofed speech detection as a data cleansing technique for classifying synthetic speech and real speech was examined. The performance of spoofed speech detection was evaluated using simulated synthetic speech and real speech data as well as speech data collected in a real environment. The experiments demonstrated the usefulness of spoofed speech detection, while also highlighting the difficulties faced in actual settings. |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
| 書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2023-SLP-146,
号 74,
p. 1-5,
発行日 2023-02-21
|
| ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
| Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |