| Item type |
SIG Technical Reports(1) |
| 公開日 |
2021-06-11 |
| タイトル |
|
|
タイトル |
防音用イヤーマフと骨導マイクを用いた体内音の模擬と自己聴取音の合成 |
| タイトル |
|
|
言語 |
en |
|
タイトル |
Simulation of Body-conducted Speech and Synthesis of One’s Own Speech with Sound-proof Earmuffs and Bone-conducted Microphones |
| 言語 |
|
|
言語 |
jpn |
| キーワード |
|
|
主題Scheme |
Other |
|
主題 |
一般発表 |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
| 著者所属 |
|
|
|
東京大学工学部 |
| 著者所属 |
|
|
|
東京大学大学院工学系研究科 |
| 著者所属 |
|
|
|
東京大学大学院工学系研究科 |
| 著者所属 |
|
|
|
東京大学大学院工学系研究科 |
| 著者所属(英) |
|
|
|
en |
|
|
School of Engineering, University of Tokyo |
| 著者所属(英) |
|
|
|
en |
|
|
Graduate School of Engineering, University of Tokyo |
| 著者所属(英) |
|
|
|
en |
|
|
Graduate School of Engineering, University of Tokyo |
| 著者所属(英) |
|
|
|
en |
|
|
Graduate School of Engineering, University of Tokyo |
| 著者名 |
陳, 瑞彦
西村, 多寿子
峯松, 信明
齋藤, 大輔
|
| 著者名(英) |
Ruiyan, Chen
Tazuko, Nishimura
Nobuaki, Minematsu
Daisuke, Saito
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
自分自身の録音音声を初めて聞いたとき,その違和感に驚く人は少なくないだろう.心理学では,この現象を voice confrontation と呼ぶ.ある話者の録音音声からその話者自身の自己聴取音への変換については,今まで技術的に検討されているが,本研究では自己聴取音に変換するための新しいフレームワークを提案する.本報告では,4 つの新しいアイデアを導入し,技術的に検証する.a) 口腔から内耳まで伝わる体内音声の複数の経路を考慮する.b) 骨導音ではなく,体内音を定義して模擬する.c) 主観聴取実験での馴化の影響を避けるために,特別な装置を用意する.d) 上記 3 ステップを経て作成したパラレルコーパスを用いて,ネットワークベースの声質変換技術を適用する.本研究で提案したフレームワークは,従来手法に比べると,多言語の文脈においても,より高品質な自己聴取音を生成できるこ とを実験的に示す. |
| 論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
When one hears his/her recorded voices for the first time, s/he is probably surprised and not rarely disappointed at the differences of voice quality between the recorded voices and his/her own voices. In psychology, this phenomenon is called voice confrontation. Conversion from recorded voices of a speaker to his/her own voices was technically investigated in previous studies, and in the current study, we propose a novel framework for conversion. Here, four new ideas are introduced and tested technically: a) multiple pathways of in-body voice transmission from the oral cavity to the inner ear are taken into account for recording, b) body-conducted speech, not bone-conducted speech, is defined and simulated, c) a special device is prepared to avoid habituation effects in listening tests, and d) a network-based voice conversion technique is applied using a parallel corpus prepared by the above three steps. Experiments show that the proposed framework can generate one’s own voices with higher quality, compared to a conventional method, even in cross-language contexts. |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
| 書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2021-SLP-137,
号 54,
p. 1-6,
発行日 2021-06-11
|
| ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
| Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |