| Item type |
SIG Technical Reports(1) |
| 公開日 |
2019-11-29 |
| タイトル |
|
|
タイトル |
民話を対象としたアイヌ語音声コーパスとEnd-to-End音声認識 |
| 言語 |
|
|
言語 |
jpn |
| キーワード |
|
|
主題Scheme |
Other |
|
主題 |
セッション2:多様な音声言語処理 |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
| 著者所属 |
|
|
|
京都大学大学院情報学研究科 |
| 著者所属 |
|
|
|
京都大学大学院情報学研究科 |
| 著者所属 |
|
|
|
京都大学大学院情報学研究科 |
| 著者所属 |
|
|
|
京都大学大学院情報学研究科 |
| 著者所属 |
|
|
|
京都大学大学院情報学研究科 |
| 著者名 |
松浦, 孝平
上乃, 聖
三村, 正人
坂井, 信輔
河原, 達也
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
我が国を構成する民族の一つであるアイヌは独自の言語を用いて文化を口頭で伝承してきたが,アイヌ語は母語話者の数が減り消滅の危機に瀕している.口頭伝承を録音することでアイヌ文化の保存が図られているが,その大部分は書き起こされておらず十分に活用されていない.我々は,アイヌ民族博物館と二風谷アイヌ文化博物館から提供されたデータをもとに,民話を対象に音声認識の研究を行っている.本稿では End-to-End モデルによる音声認識器の構築について報告する.モデルには注意機構と Connectionist Temporal Classification (CTC) を組み合わせたものを用いる.音素,音節,ワードピース,単語の各認識単位によって学習したモデルによる認識性能を比較し,単語認識精度と音素認識精度の両方について音節単位が最も高いという知見を得た.話者クローズの場合,各話者について 3 時間程度の学習データがあれば,単語認識精度で 80% 以上,音素認識精度で 90% 以上となることがわかった.話者オープンの場合,話者によって大きく異なるが,単語認識精度は平均的に 60% 程度 (音素認識精度は 85% 程度) となった.また,日本語コーパスとのマルチリンガル学習の導入も行い,話者オープンの場合に効果を確認した. |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
| 書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2019-SLP-130,
号 16,
p. 1-6,
発行日 2019-11-29
|
| ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
| Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |