Item type |
SIG Technical Reports(1) |
公開日 |
2024-08-29 |
タイトル |
|
|
タイトル |
転移学習を用いた高齢話者の音声認識率向上手法 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Method for Improving Speech Recognition Rates for Elderly Speakers Using Transfer Learning |
言語 |
|
|
言語 |
jpn |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
奈良女子大学 |
著者所属 |
|
|
|
奈良女子大学 |
著者所属 |
|
|
|
奈良女子大学 |
著者所属(英) |
|
|
|
en |
|
|
Nara woman's University |
著者所属(英) |
|
|
|
en |
|
|
Nara woman's University |
著者所属(英) |
|
|
|
en |
|
|
Nara woman's University |
著者名 |
鎌田, 万由
千代延, 未帆
髙田, 雅美
|
著者名(英) |
Mayu, Kamada
Miho, Chiyonobu
Masami, Takata
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
本稿では,高齢話者の発話を認識するための音声認識器の認識率改善を目的としている.音声認識器を開発する場合,明瞭な発音やノイズが少ない音声データを学習データとして用いることが一般的である.明瞭な発音やノイズの少ない音声データを使用した音声認識器を使用する場合,発音が不明瞭であったり,声に震えが生じやすい高齢話者の音声をテストデータとする場合,認識率が下がる.この認識率の低下を改善するために,転移学習を行い,学習データに加工した音声を用いる.本稿では,音声認識器である Whisper を用いて転移学習を行う.また,音声加工として高齢者の音声特性の 1 つである嗄声と,声の震えを再現するための加工を音声に施す.高齢者の嗄声を再現するために残差信号を変換するノイズ強調法を使用する.また,高齢者の声の震えを再現するためにトレモロを使用する.未加工の音声を学習データとして用いたものと加工した音声を学習データとして用いたものに対して高齢者の音声をテストデータとして与え,認識率の算出を行う. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10505667 |
書誌情報 |
研究報告数理モデル化と問題解決(MPS)
巻 2024-MPS-150,
号 4,
p. 1-5,
発行日 2024-08-29
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8833 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |