@techreport{oai:ipsj.ixsq.nii.ac.jp:00234689, author = {塩田, さやか and 俵, 直弘}, issue = {2}, month = {Jun}, note = {本発表では話者認識入門と題して,話者認識(Speaker recognition)に関わる基礎技術の概要とその応用を紹介する.発表の前半部分では,音声から発話者が誰かを推定する技術である話者認識について,そのタスクの定義や技術発展の歴史的な背景について解説する.さらに,声を用いた生体認証技術である話者照合(Speaker verification)について,最先端モデルの一つである深層学習を用いた話者埋込みネットワークを用いた話者照合について紹介する.発表の後半部分では,話者認識技術に深く関連した発展的な話題として,なりすまし音声攻撃とその対抗策(Speech spoofing attack and counter measurement)と話者ダイアライゼーション(Speaker diarization)を紹介する.なりすまし音声攻撃は,音声合成技術を用いて作成した攻撃対象話者の音声や,事前に収録した攻撃対象者の肉声を再生することで話者照合システムの突破を試みる攻撃の総称で,近年の音声合成技術の急速な発展に伴い,その検知や防御方法の確立が重要な社会的課題となっている.そこで本発表では,その原理や近年の研究動向を具体的な事例を交えて紹介することでその全体像を概説する.話者ダイアライゼーションは,会議音声など複数人が会話をする場面から,誰がいつ話したのかを推定する技術であり,複数人話者音声認識の事前処理など,多人数発話音声処理において必要不可欠な技術となっている.話者ダイアライゼーションでは話者埋め込み抽出と話者クラスタリングを組み合わせたカスケードアプローチが長らく主流だったが,近年の深層学習技術の進展に伴い,単一の深層学習モデルで音声から各話者の発話区間を直接推定するエンドツーエンドモデルに研究の焦点が移りつつある.そこで,話者クラスタリングに基づく古典的な手法から最新のエンドツーエンドモデルに基づく手法まで実例を交えて概説する.}, title = {初学者のための話者認識入門:基礎技術と応用}, year = {2024} }