| Item type |
SIG Technical Reports(1) |
| 公開日 |
2023-06-16 |
| タイトル |
|
|
タイトル |
JTubeSpeech-ASV: YouTubeから構築された話者照合のための日本語を主とした音声コーパス |
| 言語 |
|
|
言語 |
jpn |
| キーワード |
|
|
主題Scheme |
Other |
|
主題 |
一般発表 |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
| 著者所属 |
|
|
|
東京都立大学システムデザイン研究科 |
| 著者所属 |
|
|
|
東京都立大学システムデザイン研究科 |
| 著者所属 |
|
|
|
東京都立大学システムデザイン研究科 |
| 著者所属 |
|
|
|
東京大学大学院情報理工学系研究科 |
| 著者名 |
塩田, さやか
永森, 輝
若松, 智花
高道, 慎之介
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
本論文では,YouTube から自動構築された日本語音声認識及び話者照合用コーパス JTubeSpeech を用いた話者照合用サブセットの詳細について,人手によるアノテーション結果とともに分析し,話者照合により適した音声コーパス JTubeSpeech-ASV の公開と初期実験の報告を行う.近年,インターネット上に公開されている様々な動画を収集し自動構築した音声コーパスの公開が増えてきている.これまでに公開されてきた音声コーパスは主に音声認識のために構築されるものが多く,話者照合のために構築されたものは少ない.近年の多くの音声情報処理技術と同様に,話者照合においても深層学習を用いた手法が最先端手法として提案されているが,高性能な深層学習モデルの構築にも使用可能な規模の話者照合用音声コーパスは英語および中国語に限られている.そのため,本来言語の依存性を含まないはずの話者照合モデルの性能が実際には言語など話者性以外の要因に影響を受けることが知られている.言語の依存性を減らすために英語や中国語以外の言語による音声コーパスの構築が求められるが,話者照合のための音声コパースの自動構築がどの程度可能なのか,また,自動収集により混入する不適切なデータの影響については調査がなされていない.そこで本研究では,JTubeSpeech という日本語音声のための音声コーパスの話者照合用のデータを人手でアノテーションした結果と自動構築の精度,深層学習モデルの構築及びテストへの影響について調査するとともに,話者照合のコミュニティで広く使われるような条件設定となるように調整を行った JTubeSpeech-ASV という音声コーパスについて紹介する.音声コーパスや学習モデルはプロジェクトページに公開し研究用途として広く用いられることを目指す. |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
| 書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2023-SLP-147,
号 4,
p. 1-4,
発行日 2023-06-16
|
| ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
| Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |