Item type |
SIG Technical Reports(1) |
公開日 |
2018-10-03 |
タイトル |
|
|
タイトル |
データ拡張処理の非ネイティブ英語音声認識への効果 |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
デベロッパーズフォーラム1 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
日本IBM東京基礎研究所 |
著者所属 |
|
|
|
IBM T. J. Watson Research Center |
著者所属 |
|
|
|
IBM T. J. Watson Research Center |
著者所属 |
|
|
|
IBM Haifa Research Lab |
著者所属 |
|
|
|
日本IBM東京基礎研究所 |
著者名 |
福田, 隆
ラウル, フェルナンデス
サミュエル, トーマス
アレキサンダー, ソリン
倉田, 岳人
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
外国語なまりのアクセントを持つ話者 (非ネイティブ,L2 話者) の音声認識は未だチャレンジングな状況にある.この課題に対する最も効果的なアプローチは,外国語なまりのアクセント音声を収集し,発話内容の書き起こしと共に学習データに含めることである.しかし,非ネイティブ話者の音声はネイティブ話者 (L1) に比べて豊富に収集できる訳ではないため,収集されたデータがもたらすインパクトには限りがある.本報告は,非ネイティブ話者の音声に対する人工的データ拡張処理が,音声認識にどのような効果をもたらすかを実験的に検証する.実験では,ラテンアメリカ英語とアジア英語の 2 種類を対象に,声質変換 (声帯振動と声道特性の変換),話速変形,雑音付与によって複数のコピーを生成し,教師あり学習と教師なし学習の両方のシナリオで,人工的に生成されたデータの効果を確認する.非ネイティブ話者の音声認識には話速変換,声質変換,雑音付与によるデータ拡張処理の順で効果があったことを述べる.特に外国語なまりアクセントの専用音響モデルをスクラッチから構築する場合にデータ拡張の効果が大きく,話速変換を用いたデータの生成によって,30% 以上の相対的誤り削減が得られるケースもある. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2018-SLP-124,
号 2,
p. 1-6,
発行日 2018-10-03
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |