WEKO3
アイテム
CHATR:音声合成データベース処理について
https://ipsj.ixsq.nii.ac.jp/records/57765
https://ipsj.ixsq.nii.ac.jp/records/57765857e14a6-2c45-4c27-bbd3-430eaa8d669b
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 1997 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 1997-07-18 | |||||||
タイトル | ||||||||
タイトル | CHATR:音声合成データベース処理について | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Processing a Speech Corpus for Synthesis with Chatr | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
ATR音声翻訳通信研究所 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
ATR Interpreting Telecommunications Research Laboratories | ||||||||
著者名 |
ニックキャンベル
× ニックキャンベル
|
|||||||
著者名(英) |
Nick, Campbell
× Nick, Campbell
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 本報告では音声合成データベースに於いて音素ラベリング及び韻律ラベリングを用いる方法についてと音声セグメントの多層的な記述方法についてを述べる。従来の音素による音声表記とは対照的に、本方式では音響的な違いを記述する重要な要素として韻律的な文脈を取り入れた。人間が発する音声の最小限の識別可能な音に於いて、意味を有する音の違いは文脈と調音様式に依存する。しかし、少数の高レベルの特徴を組み合わせることにより、高精度にインデックスを付与することが可能である。音声合成で上記の特徴は「重み学習」と「単位選択」の処理に用いられ、音声データベースより結合のための最適な連続セグメントを決定する。しかし、音響的な違いを定義するには音節などのより大きい、高いレベルの単位が連想的であるが、結合には音素より小さい単位である副音素のセグメントの方が適するというパラドックスになる。CHATRで使用するデータベースの作成にあたっては、初見で文の予測が可能となる方式で、音素より小さい単位のレベルの音声が持つ重要な特徴が全て識別される様、データの分析及び処理を行なう必要がある。本報告では「音節レベルでのラベルリング」と「音素より小さい単位のレベルでの音声単位」を組み合わすことにより、改良されたCHATRの音声合成システムを記述する。また、音声セグメントに縛られない多層的なアプローチが、音素に基づいた従来のシステムより好結果をもたらすことを示す。 | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | This paper discusses the use of phonetic and prosodic labelling in corpora for speech synthesis, and argues for a multi-level approach for the description of speech segments. In contrast to traditional phonetic transcriptions of speech, we include prosodic context as a key descriptor of acoustic variance. Meaningful variations in minimally distinguishable sounds of situated human speech depend both on the context and on the manner of articulation, but can be indexed very precisely by a small number of higher-level features in combination. For synthesis, we use these features in weight-training and unit selection to determine an optimal sequence of segments for concatenation from a speech database. However, we are faced with the paradox that while larger, higher-level units such as the syllable are ideal for defining acoustic variation, smaller sub-phonemic segments are to be preferred for concatenation. In order to prepare a speech corpus for use in Chatr, the data must be analysed and processed so that all the essential characteristics of sub-phonemic speech sounds are identified in a way that can be extended for prediction of unseen sentences. The paper describes an improvement of the Chatr synthesis system that incorporates syllable-level labelling with sub-phonemic units, and shows that the multi-level non-segmental approach offers several advantages over the earlier phoneme-based system. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10442647 | |||||||
書誌情報 |
情報処理学会研究報告音声言語情報処理(SLP) 巻 1997, 号 66(1997-SLP-017), p. 109-114, 発行日 1997-07-18 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |