ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング


インデックスリンク

インデックスツリー

  • RootNode

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 研究報告
  2. 音声言語情報処理(SLP)
  3. 2011
  4. 2011-SLP-085

音響モデル学習のための相対エントロピーを用いた学習文選択

https://ipsj.ixsq.nii.ac.jp/records/72649
https://ipsj.ixsq.nii.ac.jp/records/72649
0720b6b9-3144-438c-93f2-4b32a9cb36b6
名前 / ファイル ライセンス アクション
IPSJ-SLP11085003.pdf IPSJ-SLP11085003.pdf (837.6 kB)
Copyright (c) 2011 by the Information Processing Society of Japan
オープンアクセス
Item type SIG Technical Reports(1)
公開日 2011-01-28
タイトル
タイトル 音響モデル学習のための相対エントロピーを用いた学習文選択
タイトル
言語 en
タイトル A relative entropy based data selection approach for acoustic model training
言語
言語 jpn
キーワード
主題Scheme Other
主題 音響モデル
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_18gh
資源タイプ technical report
著者所属
東京工業大学大学院情報理工学研究科計算工学専攻
著者所属
東京工業大学大学院情報理工学研究科計算工学専攻
著者所属
東京工業大学大学院情報理工学研究科計算工学専攻
著者所属(英)
en
Department of Computer Science, Tokyo Institute of Technology
著者所属(英)
en
Department of Computer Science, Tokyo Institute of Technology
著者所属(英)
en
Department of Computer Science, Tokyo Institute of Technology
著者名 村上, 博子 篠田, 浩一 古井, 貞熙

× 村上, 博子 篠田, 浩一 古井, 貞熙

村上, 博子
篠田, 浩一
古井, 貞熙

Search repository
著者名(英) Hiroko, Murakami Koichi, Shinoda Sadaoki, Furui

× Hiroko, Murakami Koichi, Shinoda Sadaoki, Furui

en Hiroko, Murakami
Koichi, Shinoda
Sadaoki, Furui

Search repository
論文抄録
内容記述タイプ Other
内容記述 大語彙連続音声認識器の音響モデル学習には大規模な音声データが必要となるが,その構築にかかるコストは大きい.本稿では,学習文を選択することにより,従来より少ない学習文数で同等程度の認識性能をもつ音響モデルを学習する手法を提案する.まず,少量の発話データを用いて学習した音響モデルで音素認識を行い,認識単位の誤認識個数の分布を得る.そして,その分布と文内に出現する認識単位の累積頻度分布が近い文集合を文候補から選択する.分布間距離として相対エントロピーを用いる.そして,選択済みの学習文を用いて再度音響モデルを学習し,認識単位を切り替えて再度選択を行う.相対エントロピーの計算において近似を用いることで,計算時間を削減する.提案手法を,教師付き学習と半教師付き学習の両方の条件で,日本語話し言葉コーパスの152時間の音声データを用いて評価した.教師付き学習では,ランダムな学習文選択より顕著に良い結果を得た.提案手法は,全学習データを用いたときの単語正解精度74.7%に,その半分の学習データで到達した.半教師付き学習では高い効果を得られなかった.
論文抄録(英)
内容記述タイプ Other
内容記述 We propose a training data selection method for large vocabulary continuous speech recognition. First, we prepare a large text corpus as a sentence set for training, and obtain phone occurence distribution for each sentence. Second, we calculate phone error distribution from phone recognition result using an initial acoustic model. Then we select sentences whose accumulated phone occurrence distribution is close to the phone error distribution. Our method was evaluated by using 152-hour speech data in the Corpus of Spontaneous Japanese. It was evaluated in situations of supervised training and semi-supervised training. In supervised training, it proved to be significantly better than random selection. It required only 76h of speech data to achieve word accuracy of 74.7%, while standard training (i.e., random selection) required 152h of data to achieve the same rate. It was not significantly effective in semi-supervised training.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AN10442647
書誌情報 研究報告 音声言語情報処理(SLP)

巻 2011-SLP-85, 号 3, p. 1-6, 発行日 2011-01-28
Notice
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-21 22:40:27.602368
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

古井, 貞熙, 2011: 情報処理学会, 1–6 p.

Loading...

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3