@inproceedings{oai:ipsj.ixsq.nii.ac.jp:00201392, author = {中村, 泰貴 and 齋藤, 佑樹 and 高道, 慎之介 and 井島, 勇祐 and 猿渡, 洋 and Taiki, Nakamura and Yuki, Saito and Shinnosuke, Takamichi and Yusuke, Ijima and Hiroshi, Saruwatari}, book = {コンピュータセキュリティシンポジウム2019論文集}, month = {Oct}, note = {本稿では,話者認証を用いた声質変換(音声の話者性などを変換する技術)の構築法を提案し,声質変換を用いた音声なりすまし攻撃の可能性を評価する.話者認証は,音声入力により登録済みユーザを特定可能な,ユーザへの負担が小さい生体認証である.基本的に,話者認証システム自体には登録済みユーザの音声データは含まれないが,悪意のある攻撃者がそのシステムを暴露した場合,攻撃者は登録済みユーザの音声を復元できてしまう可能性を孕む.特に,攻撃者が声質変換を用いた場合,攻撃者の音声を登録済みユーザの音声に変換することで,登録済みユーザのあらゆる発話を再現できてしまう可能性がある.本稿では,この攻撃を話者 verication-to-synthesis (V2S) 攻撃と呼び,ホワイトボックスな話者認証システムへの話者 V2S 攻撃により声質変換モデルを学習する方法を提案する.提案法では,話者認証システムにおいて入力音声からの特徴抽出を行う話者認識モデルに由来する,話者の話者性を再現するための制約と,攻撃者によって事前に用意された音声認識モデルに由来する,音声の発話内容を保持するための制約に用いて声質変換モデルを学習する.実験的評価では,提案法により生成した音声の自然性・話者再現性(登録済みユーザの音声の話者性をどの程度再現できるか)を,登録済みユーザの音声データから学習される通常の声質変換と比較する.実験的評価の結果,提案法の性能は,ごく少量の音声データから学習される通常の声質変換と同程度であることを示す., This paper presents a new voice impersonation attack using voice conversion (VC). Enrolling personal voices for automatic speaker verication (ASV) offers natural and exible biometric authentication systems. Basically, the ASV systems do not include the users' voice data. However, if the ASV system is unexpectedly exposed and hacked by a malicious attacker, there is a risk that the attacker will reproduce the enrolled user's voices. Especially, voice conversion (VC), a method for transforming speaker individuality, has the potential to transform the attacker's any voice to the enrolled speaker's one. We name this the "speaker verication-to-synthesis (V2S) attack" and propose VC training with the ASV and pre-trained automatic speech recognition (ASR) models. The experimental evaluation compares converted voices between the proposed method that does not use the targeted speaker's voice data and the standard VC that uses the data. The experimental results demonstrate that the proposed method performs comparably to the existing VC methods that trained using a very small amount of parallel voice data.}, pages = {697--703}, publisher = {情報処理学会}, title = {話者V2S攻撃:話者認証から構築される声質変換とその音声なりすまし可能性の評価}, volume = {2019}, year = {2019} }