民話を対象としたアイヌ語音声コーパスとEnd-to-End音声認識

松浦, 孝平; 上乃, 聖; 三村, 正人; 坂井, 信輔; 河原, 達也

WEKO3

lat lon distance

[[sub_check.contents]]

[[sub_radio.contents]]

Field does not validate

[[sub_attr.contents]]　

インデックスツリー

アイテム

民話を対象としたアイヌ語音声コーパスとEnd-to-End音声認識

https://ipsj.ixsq.nii.ac.jp/records/200795

名前 / ファイル	ライセンス	アクション
IPSJ-SLP19130016.pdf (422.1 kB)	Copyright (c) 2019 by the Information Processing Society of Japan
オープンアクセス

Item type

SIG Technical Reports(1)

公開日

2019-11-29

タイトル

民話を対象としたアイヌ語音声コーパスとEnd-to-End音声認識

言語

jpn

キーワード

主題Scheme

Other

主題

セッション2：多様な音声言語処理

資源タイプ

資源タイプ識別子

http://purl.org/coar/resource_type/c_18gh

資源タイプ

technical report

著者所属

京都大学大学院情報学研究科

著者所属

京都大学大学院情報学研究科

著者所属

京都大学大学院情報学研究科

著者所属

京都大学大学院情報学研究科

著者所属

京都大学大学院情報学研究科

著者名

松浦, 孝平
上乃, 聖
三村, 正人
坂井, 信輔
河原, 達也

論文抄録

内容記述タイプ

Other

内容記述

我が国を構成する民族の一つであるアイヌは独自の言語を用いて文化を口頭で伝承してきたが，アイヌ語は母語話者の数が減り消滅の危機に瀕している．口頭伝承を録音することでアイヌ文化の保存が図られているが，その大部分は書き起こされておらず十分に活用されていない．我々は，アイヌ民族博物館と二風谷アイヌ文化博物館から提供されたデータをもとに，民話を対象に音声認識の研究を行っている．本稿では End-to-End モデルによる音声認識器の構築について報告する．モデルには注意機構と Connectionist Temporal Classification （CTC）を組み合わせたものを用いる．音素，音節，ワードピース，単語の各認識単位によって学習したモデルによる認識性能を比較し，単語認識精度と音素認識精度の両方について音節単位が最も高いという知見を得た．話者クローズの場合，各話者について 3 時間程度の学習データがあれば，単語認識精度で 80% 以上，音素認識精度で 90% 以上となることがわかった．話者オープンの場合，話者によって大きく異なるが，単語認識精度は平均的に 60% 程度（音素認識精度は 85% 程度）となった．また，日本語コーパスとのマルチリンガル学習の導入も行い，話者オープンの場合に効果を確認した．

書誌レコードID

収録物識別子タイプ

NCID

収録物識別子

AN10442647

書誌情報

研究報告音声言語情報処理（SLP）

巻 2019-SLP-130, 号 16, p. 1-6, 発行日 2019-11-29

ISSN

収録物識別子タイプ

ISSN

収録物識別子

2188-8663

Notice

SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.

出版者

言語

出版者

情報処理学会

戻る

views

See details

	Views

Versions

Ver.1

2025-01-19 21:14:27.237124

Show All versions

Cite as

エクスポート

OAI-PMH

JPCOAR
DublinCore
DDI

Other Formats

JSON
BIBTEX

インデックスリンク

インデックスツリー

アイテム

民話を対象としたアイヌ語音声コーパスとEnd-to-End音声認識

× 松浦, 孝平

× 上乃, 聖

× 三村, 正人

× 坂井, 信輔

× 河原, 達也

Versions

Share

Cite as

エクスポート