Item type |
SIG Technical Reports(1) |
公開日 |
2024-02-22 |
タイトル |
|
|
タイトル |
年齢情報とのマルチタスク学習による高齢者音声認識の高精度化 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Multi-task learning with age information model for highly accurate elderly speech recognition. |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
SP1 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
豊橋技術科学大学 |
著者所属 |
|
|
|
豊橋技術科学大学 |
著者所属 |
|
|
|
豊橋技術科学大学 |
著者所属 |
|
|
|
豊橋技術科学大学 |
著者所属(英) |
|
|
|
en |
|
|
Toyohashi Uniersity of Technology |
著者所属(英) |
|
|
|
en |
|
|
Toyohashi Uniersity of Technology |
著者所属(英) |
|
|
|
en |
|
|
Toyohashi Uniersity of Technology |
著者所属(英) |
|
|
|
en |
|
|
Toyohashi Uniersity of Technology |
著者名 |
新惠, 拓実
木内, 貴浩
若林, 佑幸
北岡, 教英
|
著者名(英) |
Takumi, Shine
Takahiro, Kinouchi
Yukoh, Wakabayashi
Norihide, Kitaoka
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
高齢者の音声は,一般にスマートスピーカーなどに使用されている音声認識機では一般話者に比べて精度が低くなってしまう.これは高齢者音声には発声器官の衰えや間延びの増加,発話速度の低下などがあり,音響的特徴量に差があることが原因とされている.また,高齢者音声データは収録が容易ではなく,データ量が少ないといった事も高齢者音声の認識精度を向上できない理由の一つとして挙げられる.本研究では,年齢推定タスクを同時に行うマルチタスクモデルを用いることで,認識精度の向上を試みた.一つ目に,純粋に年齢推定を行いながら音声認識を行うことで年齢情報を考慮した音声認識が可能になるモデルを構築した.二つ目に,年齢推定タスクと音声認識タスクで敵対的マルチタスク学習を行うことで,一般成人と高齢者に共通する年齢不変な音響特徴量を抽出し,学習を進めることで認識精度の向上を狙うモデルを構築した.また,三つ目に年齢推定器を改良したマルチタスク学習モデルを構築した.これらのモデルの精度を比較し,考察を行った.結果として高齢者の音声だけでなく一般成人に対する認識精度も改善でき,マルチタスク学習の有用性を示した. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
The speech recognition of the elderly is less accurate, especially in smart speaker speech recognition, due to aging-related factors such as vocal organ deterioration, increased pauses, and decreased speech rate, leading to differences in acoustic features. Challenges include difficulty in recording elderly speech and limited data availability. The aim of this study is to enhance the accuracy of elderly speech recognition. As a proposed method, we built two models: one integrating age estimation into the speech recognition model and another employing adversarial multitask learning with GAN framework. Comparing the accuracy of these models revealed improved recognition for both elderly and general adult speech, demonstrating the effectiveness of the multitasking approach. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2024-SLP-151,
号 4,
p. 1-6,
発行日 2024-02-22
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |