WEKO3
アイテム
音声合成のための自動アクセントラベリング
https://ipsj.ixsq.nii.ac.jp/records/56825
https://ipsj.ixsq.nii.ac.jp/records/5682507dc4880-bf4f-4392-8464-d09fb6999540
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2007 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2007-02-10 | |||||||
タイトル | ||||||||
タイトル | 音声合成のための自動アクセントラベリング | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Automatic Accent Labeling for a Text-to-Speech System | |||||||
言語 | ||||||||
言語 | eng | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
日本アイ・ビー・エム東京基礎研究所 | ||||||||
著者所属 | ||||||||
日本アイ・ビー・エム東京基礎研究所 | ||||||||
著者所属 | ||||||||
日本アイ・ビー・エム東京基礎研究所 | ||||||||
著者所属 | ||||||||
日本アイ・ビー・エム東京基礎研究所 | ||||||||
著者所属 | ||||||||
大阪大学大学院工学研究科 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Tokyo Research Lab., IBM Japan | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Tokyo Research Lab., IBM Japan | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Tokyo Research Lab., IBM Japan | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Tokyo Research Lab., IBM Japan | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Engineering, Osaka University | ||||||||
著者名 |
立花, 隆輝
× 立花, 隆輝
|
|||||||
著者名(英) |
Ryuki, TACHIBANA
× Ryuki, TACHIBANA
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 人間の音声のみから、全モジュールについて統計的学習を行って自動的にテキスト音声合成システムが構築できれば、現在よりはるかに多様な声質の合成音声を日常の様々な場面で利用できるようになるだろう。そのためには音声に対してアクセントラベルの付与を自動的に行う必要がある。しかしアクセントの違いによる音響的特徴量の変化は微小であるため高精度の推定は従来困難であった。本論文では日本語のアクセント句境界推定とアクセント型推定の精度を改善するため、音響的モデルと言語的モデル、話者依存モデルと非依存モデルを組み合わせた利用を提案する。実験では、各モデルを独立して利用した場合と比較して、組み合わせた場合の精度が優れていることが確認できた。 | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | If we could automatically build a text-to-speech (TTS) synthesis system by stochastically training every modules of the system only from the speech of a human, we would be able to use various synthetic voices in greater diversity of day-to-day situations. Automatic determination of the prosodic labels for the speech is necessary for this purpose. However, the subtleness of physical features makes accurate labeling difficult. In this paper, we propose a method that can accurately determine prosodic labels using both the acoustic and linguistic models, and using speaker-dependent and speaker-independent models. Our experiments on Japanese accent determination show the effectiveness of the combination of the models. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10442647 | |||||||
書誌情報 |
情報処理学会研究報告音声言語情報処理(SLP) 巻 2007, 号 11(2007-SLP-065), p. 97-102, 発行日 2007-02-10 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |