| Item type |
SIG Technical Reports(1) |
| 公開日 |
2021-02-24 |
| タイトル |
|
|
タイトル |
短時間発話を用いた話者照合のための音声加工の効果に関する検討 |
| 言語 |
|
|
言語 |
jpn |
| キーワード |
|
|
主題Scheme |
Other |
|
主題 |
SLP1 |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
| 著者所属 |
|
|
|
東京大学工学部計数工学科 |
| 著者所属 |
|
|
|
東京都立大学/統計数理研究所 |
| 著者所属 |
|
|
|
東京大学大学院情報理工学系システム情報学専攻 |
| 著者所属 |
|
|
|
統計数理研究所 |
| 著者所属 |
|
|
|
統計数理研究所 |
| 著者所属 |
|
|
|
東京大学大学院情報理工学系システム情報学専攻 |
| 著者名 |
宋, 裕進
塩田, さやか
高道, 慎之介
村上, 大輔
松井, 知子
猿渡, 洋
|
| 著者名(英) |
Yujin, Song
Sayaka, Shiota
Shinnosuke, Takamichi
Daisuke, Murakami
Tomoko, Matsui
Hiroshi, Saruwatari
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
事前に登録された音声と入力された音声が同一話者のものであるかを判別するタスクである話者照合においては,発話データから deep neural network を用いて x-vector とよばれる話者表現を抽出したのち,probabilistic linear discriminant analysis(PLDA)を用いて識別を行う方法が近年の最先端技術として用いられてきた.しかし,用いられる発話データの長さが十分でない場合,x-vector に話者の情報が十分反映されず,照合の精度が安定しないという問題点がある.そこで本研究では,短時間音声からも話者情報をより頑健に抽出し照合精度を高めるために,登録発話や照合用発話に対して様々な音声加工を施すことを検討する.実験ではまず,複数の音声を連結することで長さを伸長させる方法や,複数の音声波形を重ね合わせる方法について識別率の挙動を確認した.実験結果から,発話の連結や重ね合わせによって識別率が向上したことを報告する.次に,照合用発話の量に制約がある場合に識別率を向上させる方法を検討するために,登録音声から一部を切り出して入力音声との連結・重ね合わせを行う場合や,waveform similarity overlap-add や phase vocoder などの信号処理的手法を用いて音声波形を伸長させる場合それぞれについて識別率の挙動を検証し,報告する. |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
| 書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2021-SLP-136,
号 29,
p. 1-6,
発行日 2021-02-24
|
| ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
| Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |