@techreport{oai:ipsj.ixsq.nii.ac.jp:00211563, author = {陳, 瑞彦 and 西村, 多寿子 and 峯松, 信明 and 齋藤, 大輔 and Ruiyan, Chen and Tazuko, Nishimura and Nobuaki, Minematsu and Daisuke, Saito}, issue = {54}, month = {Jun}, note = {自分自身の録音音声を初めて聞いたとき,その違和感に驚く人は少なくないだろう.心理学では,この現象を voice confrontation と呼ぶ.ある話者の録音音声からその話者自身の自己聴取音への変換については,今まで技術的に検討されているが,本研究では自己聴取音に変換するための新しいフレームワークを提案する.本報告では,4 つの新しいアイデアを導入し,技術的に検証する.a) 口腔から内耳まで伝わる体内音声の複数の経路を考慮する.b) 骨導音ではなく,体内音を定義して模擬する.c) 主観聴取実験での馴化の影響を避けるために,特別な装置を用意する.d) 上記 3 ステップを経て作成したパラレルコーパスを用いて,ネットワークベースの声質変換技術を適用する.本研究で提案したフレームワークは,従来手法に比べると,多言語の文脈においても,より高品質な自己聴取音を生成できるこ とを実験的に示す., When one hears his/her recorded voices for the first time, s/he is probably surprised and not rarely disappointed at the differences of voice quality between the recorded voices and his/her own voices. In psychology, this phenomenon is called voice confrontation. Conversion from recorded voices of a speaker to his/her own voices was technically investigated in previous studies, and in the current study, we propose a novel framework for conversion. Here, four new ideas are introduced and tested technically: a) multiple pathways of in-body voice transmission from the oral cavity to the inner ear are taken into account for recording, b) body-conducted speech, not bone-conducted speech, is defined and simulated, c) a special device is prepared to avoid habituation effects in listening tests, and d) a network-based voice conversion technique is applied using a parallel corpus prepared by the above three steps. Experiments show that the proposed framework can generate one’s own voices with higher quality, compared to a conventional method, even in cross-language contexts.}, title = {防音用イヤーマフと骨導マイクを用いた体内音の模擬と自己聴取音の合成}, year = {2021} }