Item type |
Symposium(1) |
公開日 |
2019-10-14 |
タイトル |
|
|
タイトル |
話者V2S攻撃:話者認証から構築される声質変換とその音声なりすまし可能性の評価 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Speaker V2S Attack: Voice Conversion Built from Automatic Speaker Verification and Its Evaluation in Voice Impersonation |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
話者認証,音声なりすまし攻撃,声質変換,音声認識 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_5794 |
|
資源タイプ |
conference paper |
著者所属 |
|
|
|
東京大学工学部 |
著者所属 |
|
|
|
東京大学大学院情報理工学系研究科 |
著者所属 |
|
|
|
東京大学大学院情報理工学系研究科 |
著者所属 |
|
|
|
NTTメディアインテリジェンス研究所 |
著者所属 |
|
|
|
東京大学大学院情報理工学系研究科 |
著者所属(英) |
|
|
|
en |
|
|
Faculty of Engineering, The University of Tokyo |
著者所属(英) |
|
|
|
en |
|
|
Graduate School of Information Science and Technology, The University of Tokyo |
著者所属(英) |
|
|
|
en |
|
|
Graduate School of Information Science and Technology, The University of Tokyo |
著者所属(英) |
|
|
|
en |
|
|
NTT Media Intelligence Laboratories, NTT Corporation |
著者所属(英) |
|
|
|
en |
|
|
Graduate School of Information Science and Technology, The University of Tokyo |
著者名 |
中村, 泰貴
齋藤, 佑樹
高道, 慎之介
井島, 勇祐
猿渡, 洋
|
著者名(英) |
Taiki, Nakamura
Yuki, Saito
Shinnosuke, Takamichi
Yusuke, Ijima
Hiroshi, Saruwatari
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
本稿では,話者認証を用いた声質変換(音声の話者性などを変換する技術)の構築法を提案し,声質変換を用いた音声なりすまし攻撃の可能性を評価する.話者認証は,音声入力により登録済みユーザを特定可能な,ユーザへの負担が小さい生体認証である.基本的に,話者認証システム自体には登録済みユーザの音声データは含まれないが,悪意のある攻撃者がそのシステムを暴露した場合,攻撃者は登録済みユーザの音声を復元できてしまう可能性を孕む.特に,攻撃者が声質変換を用いた場合,攻撃者の音声を登録済みユーザの音声に変換することで,登録済みユーザのあらゆる発話を再現できてしまう可能性がある.本稿では,この攻撃を話者 verication-to-synthesis (V2S) 攻撃と呼び,ホワイトボックスな話者認証システムへの話者 V2S 攻撃により声質変換モデルを学習する方法を提案する.提案法では,話者認証システムにおいて入力音声からの特徴抽出を行う話者認識モデルに由来する,話者の話者性を再現するための制約と,攻撃者によって事前に用意された音声認識モデルに由来する,音声の発話内容を保持するための制約に用いて声質変換モデルを学習する.実験的評価では,提案法により生成した音声の自然性・話者再現性(登録済みユーザの音声の話者性をどの程度再現できるか)を,登録済みユーザの音声データから学習される通常の声質変換と比較する.実験的評価の結果,提案法の性能は,ごく少量の音声データから学習される通常の声質変換と同程度であることを示す. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
This paper presents a new voice impersonation attack using voice conversion (VC). Enrolling personal voices for automatic speaker verication (ASV) offers natural and exible biometric authentication systems. Basically, the ASV systems do not include the users' voice data. However, if the ASV system is unexpectedly exposed and hacked by a malicious attacker, there is a risk that the attacker will reproduce the enrolled user's voices. Especially, voice conversion (VC), a method for transforming speaker individuality, has the potential to transform the attacker's any voice to the enrolled speaker's one. We name this the "speaker verication-to-synthesis (V2S) attack" and propose VC training with the ASV and pre-trained automatic speech recognition (ASR) models. The experimental evaluation compares converted voices between the proposed method that does not use the targeted speaker's voice data and the standard VC that uses the data. The experimental results demonstrate that the proposed method performs comparably to the existing VC methods that trained using a very small amount of parallel voice data. |
書誌レコードID |
|
|
|
識別子タイプ |
NCID |
|
|
関連識別子 |
ISSN 1882-0840 |
書誌情報 |
コンピュータセキュリティシンポジウム2019論文集
巻 2019,
p. 697-703,
発行日 2019-10-14
|
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |