@techreport{oai:ipsj.ixsq.nii.ac.jp:00200795, author = {松浦, 孝平 and 上乃, 聖 and 三村, 正人 and 坂井, 信輔 and 河原, 達也}, issue = {16}, month = {Nov}, note = {我が国を構成する民族の一つであるアイヌは独自の言語を用いて文化を口頭で伝承してきたが,アイヌ語は母語話者の数が減り消滅の危機に瀕している.口頭伝承を録音することでアイヌ文化の保存が図られているが,その大部分は書き起こされておらず十分に活用されていない.我々は,アイヌ民族博物館と二風谷アイヌ文化博物館から提供されたデータをもとに,民話を対象に音声認識の研究を行っている.本稿では End-to-End モデルによる音声認識器の構築について報告する.モデルには注意機構と Connectionist Temporal Classification (CTC) を組み合わせたものを用いる.音素,音節,ワードピース,単語の各認識単位によって学習したモデルによる認識性能を比較し,単語認識精度と音素認識精度の両方について音節単位が最も高いという知見を得た.話者クローズの場合,各話者について 3 時間程度の学習データがあれば,単語認識精度で 80% 以上,音素認識精度で 90% 以上となることがわかった.話者オープンの場合,話者によって大きく異なるが,単語認識精度は平均的に 60% 程度 (音素認識精度は 85% 程度) となった.また,日本語コーパスとのマルチリンガル学習の導入も行い,話者オープンの場合に効果を確認した.}, title = {民話を対象としたアイヌ語音声コーパスとEnd-to-End音声認識}, year = {2019} }