@techreport{oai:ipsj.ixsq.nii.ac.jp:00209777, author = {越塚, 毅 and 大村, 英史 and 桂田, 浩一 and Takeshi, Koshizuka and Hidefumi, Ohmura and Kouichi, Katsurada}, issue = {39}, month = {Feb}, note = {音声変換は,入力された音声に対して言語情報を保持しつつ,話者性などの非言語情報のみを変換する技術である.一般的に,音声から話者性を除去するEncoderと,別話者の情報を加えるDecoderから構成されるシステムが多い.本稿では,事前学習した vq-wav2vecをEncoderに用いたボコーダフリーのAny-to-Many音声変換モデルを提案する.提案モデルでは Encoder の事前学習に加えて,RNN_MS と同様の構造を持つDecoderも事前学習することによって,少量の学習データからの音声変換を実現している.このように Encoder および Decoderを事前学習することにより学習データ量を削減する方法は既に提案されているが,Any-to-Many音声変換を対象としている点,およびDecoderの事前学習を音声変換タスクによって行う点が異なる.音声変換の精度を評価したところ,良好な音声変換精度が得られることが確認できた.また,既に学習済みのターゲット話者に対する変換精度を損なうことなく新たなターゲット話者を追加できることが確認できた., Voice conversion (VC) is a technique that converts speaker-dependent non-linguistic information to another speaker’s one while retaining the linguistic information of input speeches. A typical VC system is composed of two modules: an encoder module which removes speaker individuality from the speech, and a decoder module which incorporates another speaker’s individuality to the synthesized speech. In this paper, we propose a vocoder-free any-to-many voice conversion model using the pre-trained vq-wav2vec as an encoder module. Our model makes it possible to convert speech using only a small amount of training data by pre-training the RNN_MS like decoder module in addition to pre-training the encoder module. The difference from the previous approach which also pre-trains both the encoder and the decoder modules is that our target is any-to-many voice conversion and the decoder module is pre-trained with the voice conversion task. The experimental results show that we could obtain good conversion performance. We have also confirmed the system can add new target speakers without deteriorating the performance of conversion for the pre-trained target speakers.}, title = {事前学習したvq-wav2vecの音声特徴表現を用いたボコーダフリーのAny-to-Many音声変換}, year = {2021} }