短時間発話を用いた話者照合のための音声加工の効果に関する検討

宋, 裕進; 塩田, さやか; 高道, 慎之介; 村上, 大輔; 松井, 知子; 猿渡, 洋; Yujin, Song; Sayaka, Shiota; Shinnosuke, Takamichi; Daisuke, Murakami; Tomoko, Matsui; Hiroshi, Saruwatari

WEKO3

lat lon distance

[[sub_check.contents]]

[[sub_radio.contents]]

Field does not validate

[[sub_attr.contents]]　

インデックスツリー

アイテム

短時間発話を用いた話者照合のための音声加工の効果に関する検討

https://ipsj.ixsq.nii.ac.jp/records/209767

名前 / ファイル	ライセンス	アクション
IPSJ-SLP21136029.pdf (824.0 kB)	Copyright (c) 2021 by the Information Processing Society of Japan
オープンアクセス

Item type

SIG Technical Reports(1)

公開日

2021-02-24

タイトル

短時間発話を用いた話者照合のための音声加工の効果に関する検討

言語

jpn

キーワード

主題Scheme

Other

主題

SLP1

資源タイプ

資源タイプ識別子

http://purl.org/coar/resource_type/c_18gh

資源タイプ

technical report

著者所属

東京大学工学部計数工学科

著者所属

東京都立大学／統計数理研究所

著者所属

東京大学大学院情報理工学系システム情報学専攻

著者所属

統計数理研究所

著者所属

統計数理研究所

著者所属

東京大学大学院情報理工学系システム情報学専攻

著者名

宋, 裕進
塩田, さやか
高道, 慎之介
村上, 大輔
松井, 知子
猿渡, 洋

著者名(英)

Yujin, Song
Sayaka, Shiota
Shinnosuke, Takamichi
Daisuke, Murakami
Tomoko, Matsui
Hiroshi, Saruwatari

論文抄録

内容記述タイプ

Other

内容記述

事前に登録された音声と入力された音声が同一話者のものであるかを判別するタスクである話者照合においては，発話データから deep neural network を用いて x-vector とよばれる話者表現を抽出したのち，probabilistic linear discriminant analysis（PLDA）を用いて識別を行う方法が近年の最先端技術として用いられてきた．しかし，用いられる発話データの長さが十分でない場合，x-vector に話者の情報が十分反映されず，照合の精度が安定しないという問題点がある．そこで本研究では，短時間音声からも話者情報をより頑健に抽出し照合精度を高めるために，登録発話や照合用発話に対して様々な音声加工を施すことを検討する．実験ではまず，複数の音声を連結することで長さを伸長させる方法や，複数の音声波形を重ね合わせる方法について識別率の挙動を確認した．実験結果から，発話の連結や重ね合わせによって識別率が向上したことを報告する．次に，照合用発話の量に制約がある場合に識別率を向上させる方法を検討するために，登録音声から一部を切り出して入力音声との連結・重ね合わせを行う場合や，waveform similarity overlap-add や phase vocoder などの信号処理的手法を用いて音声波形を伸長させる場合それぞれについて識別率の挙動を検証し，報告する．

書誌レコードID

収録物識別子タイプ

NCID

収録物識別子

AN10442647

書誌情報

研究報告音声言語情報処理（SLP）

巻 2021-SLP-136, 号 29, p. 1-6, 発行日 2021-02-24

ISSN

収録物識別子タイプ

ISSN

収録物識別子

2188-8663

Notice

SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.

出版者

言語

出版者

情報処理学会

戻る

views

See details

	Views

Versions

Ver.1

2025-01-19 18:23:51.923728

Show All versions

Cite as

エクスポート

OAI-PMH

JPCOAR
DublinCore
DDI

Other Formats

JSON
BIBTEX

インデックスリンク

インデックスツリー

アイテム

短時間発話を用いた話者照合のための音声加工の効果に関する検討

× 宋, 裕進

× 塩田, さやか

× 高道, 慎之介

× 村上, 大輔

× 松井, 知子

× 猿渡, 洋

× Yujin, Song

× Sayaka, Shiota

× Shinnosuke, Takamichi

× Daisuke, Murakami

× Tomoko, Matsui

× Hiroshi, Saruwatari

Versions

Share

Cite as

エクスポート