@techreport{oai:ipsj.ixsq.nii.ac.jp:00220098, author = {矢倉, 大夢 and 渡邉, 研斗 and 後藤, 真孝}, issue = {9}, month = {Sep}, note = {本研究では,歌声に特化した自己教師あり対照学習による特徴量表現の獲得手法を提案した.画像ドメインを中心に発展してきた自己教師あり対照学習は,教師データなしでロバストな特徴量表現の獲得を可能にしてきた.これは,あるサンプルの特徴量表現とそのサンプルを自動変換したものの特徴量表現が近づくようにニューラルネットワークを学習することで実現される.提案手法では歌声の性質を踏まえ,ピッチシフトとタイムストレッチの 2 つを用いてサンプルを変換し,学習を行う.ただし,一般的な自己教師あり対照学習とは異なり,あるサンプルの特徴量表現とそのサンプルをピッチシフトやタイムストレッチしたものの特徴量表現を識別するようにニューラルネットワークを学習する.これにより,声質や歌唱表現の違いに敏感な特徴量表現の獲得を可能にする.本研究ではその効果を,500 人の歌声サンプルから歌手ラベルを識別するタスクによって検証を行った.その結果,上記のようにピッチシフト・タイムストレッチを適用して獲得された特徴量表現を識別器の入力とすることで,これらの変換を用いずに獲得された特徴量表現を入力とした場合に比べ,識別精度が 9.12% 向上することが確認された.さらに提案手法は,変換の適用方法を変更することにより,声質や歌唱表現のいずれかのみに敏感な特徴量表現を獲得するよう拡張することができる.実際,そうした特徴量表現によって歌のジャンル,歌手の性別,発声技法を捉えられることが確認できており,これは提案手法のさらなる応用可能性を示唆するものである.}, title = {歌声のための自己教師あり対照学習による特徴量表現の獲得手法}, year = {2022} }