2024-03-28T22:51:01Zhttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_oaipmhoai:ipsj.ixsq.nii.ac.jp:001131262023-04-27T10:00:04Z01164:05159:07884:07885
韻律・音韻の部分補正に基づく話者性を保持した日本人英語音声合成と英語習熟度が与える影響English-Read-By-Japanese Speech Synthesis Preserving Speaker Individuality Based on Partial Correction of Prosody and Phonetic Sounds and Effects of English Proficiency Level on Its Performancejpn音声合成http://id.nii.ac.jp/1001/00113101/Technical Reporthttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_action_common_download&item_id=113126&item_no=1&attribute_id=1&file_no=1Copyright (c) 2015 by the Information Processing Society of Japan奈良先端科学技術大学院大学情報科学研究科奈良先端科学技術大学院大学情報科学研究科奈良先端科学技術大学院大学情報科学研究科奈良先端科学技術大学院大学情報科学研究科奈良先端科学技術大学院大学情報科学研究科奈良先端科学技術大学院大学情報科学研究科大島, 悠司高道, 慎之介戸田, 智基Sakriani, SaktiGraham, Neubig中村, 哲声質変換や HMM 音声合成を用いた日英間クロスリンガル音声合成は,同言語間の場合と比較して,話者性の低い音声を合成する傾向にある.これに対し我々は,日本人英語 (ERJ: English Read by Japanese) の利用,また,日本人英語の韻律誤りに対する韻律補正法により,話者性を強く反映しつつ自然性を改善する手法を提案している.しかしながら,評価者の母語と発話者の英語習熟度に対する補正法の影響の違いは十分に調査されておらず,また,日本人英語の白然性低下の要因である音韻誤りについても考慮されていない.本稿では,評価者の母語と発話者の英語習熟度が韻律補正の効果に与える影響を調査するとともに,新たに無声子音スペクトル置換に基づく音韻補正法を提案する.実験的評価により,(1) パワー補正による自然性の改善効果は,英語母語話者による評価において顕著に見られること,(2) 英語習熟度に関わらず,韻律補正法により自然性が改善すること,(3) 音韻補正法も自然性改善に有効であることを示す.Cross-lingual speech synthesis for generating naturally sounding English speech uttered by Japanese speakers based on voice conversion and HMM-based speech synthesis tends to cause the degradation of speaker individuality in synthetic speech compared to intra-lingual speech synthesis. To address this issue, we have proposed an ERJ(English Read by Japanese) speech synthesis method to preserve speaker individuality in synthetic speech and a prosody correction method to improve its naturalness. However, their effectiveness has never been evaluated by native listeners: the effects of each speaker's English proficiency level on their performance have never been evaluated; and incorrect phonetic sounds of ERJ have never been addressed. In this paper, we evaluate these points by applying the proposed method to multiple speakers with various English proficiency levels and also propose a correction method of some incorrect phonetic sounds based on spectrum swapping for unvoiced consonants. The experimental results demonstrate that (1) the effectiveness of power correction is well confirmed by native listeners; (2) the naturalness of ERJ synthetic speech is successfully improved over various English prociency levels by the prosody correction method; and (3) the proposed phonetic sound correction method is also effective for further improving its naturalness.AN10442647研究報告音声言語情報処理(SLP)2015-SLP-1053162015-02-202015-02-10