WEKO3
アイテム
楽曲検索システムにおけるプレイリストに適応した音響モデル構築手法に関する検討
https://ipsj.ixsq.nii.ac.jp/records/56732
https://ipsj.ixsq.nii.ac.jp/records/5673277bedd15-cdd5-4d83-ba0f-2d04536a523f
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2007 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2007-07-21 | |||||||
タイトル | ||||||||
タイトル | 楽曲検索システムにおけるプレイリストに適応した音響モデル構築手法に関する検討 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Constructing Acoustic Model for User-specific Song List in a Music Retrieval System | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
名古屋大学情報科学研究科 | ||||||||
著者所属 | ||||||||
名古屋大学情報科学研究科 | ||||||||
著者所属 | ||||||||
名古屋大学情報科学研究科 | ||||||||
著者所属 | ||||||||
法政大学情報科学研究科 | ||||||||
著者所属 | ||||||||
名古屋大学情報科学研究科 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Information Science, Nagoya University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Information Science, Nagoya University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Information Science, Nagoya University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Information Science, Hosei University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Information Science, Nagoya University | ||||||||
著者名 |
原, 直
× 原, 直
|
|||||||
著者名(英) |
Sunao, HARA
× Sunao, HARA
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 本論文では楽曲検索システムの音声インタフェースに適用するための与えられた認識語彙集合に最適なHMM音響モデルを学習するための手法について述べる。本論文が対象とする楽曲検索アプリケーションにおいては各ユーザ毎にHMM音響モデルをカスタマイズすることが重要である、なぜなら、1) 楽曲名やアーティスト名には一般的なテキスト読み上げコーパスには出現しないような音韻コンテキストが存在すること、2) ユーザによって蓄積している音楽が異なっていること、が理由としてあげられる。特に、認識語彙集合に対して最適な状態共有構造を探すということは音響モデルの学習における新しい問題である。そこで本研究では100名以上の話者による合成音声を用いてタスクに関連した語彙発話を生成しタスク依存音響モデルを構築する手法を提案する。フィールドテストによる評価実験の結果、提案手法により作成したタスク依存音響モデルはタスク非依存音響モデルに比べて約10%の単語誤り削減率を達成することを確認した。 | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | This paper discusses a training method for the HMM acoustic model that efficiently cover the given vocabulary in order to apply it to the speech interface of a music retrieval system. Customizing the acoustic model to each user is important in this application because 1) song titles and artist names contain many phonetic contexts that are rare in general, e.g. text reading corpora, and 2) the songs stored in a device are different among users. In particular, finding an optimal state-tying structure for the given vocabulary is a new problem in acoustic model training. We propose a method for building a task-dependent acoustic model that uses task-related synthetic utterances of more than one hundred speakers by means of HMM-based speech synthesis. From the experimental evaluation using field test data, we confirmed that the task-dependent acoustic model trained by the proposed method can reduce word error rate by 10% compared to a task-independent model. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10442647 | |||||||
書誌情報 |
情報処理学会研究報告音声言語情報処理(SLP) 巻 2007, 号 75(2007-SLP-067), p. 87-90, 発行日 2007-07-21 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |