ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 論文誌(ジャーナル)
  2. Vol.50
  3. No.2

ニュース番組の収録音声を利用した波形接続型音声合成システム

https://ipsj.ixsq.nii.ac.jp/records/9276
https://ipsj.ixsq.nii.ac.jp/records/9276
0dce672b-20a2-4a43-875c-b5d5ab9bf8ef
名前 / ファイル ライセンス アクション
IPSJ-JNL5002014.pdf IPSJ-JNL5002014 (615.8 kB)
Copyright (c) 2009 by the Information Processing Society of Japan
オープンアクセス
Item type Journal(1)
公開日 2009-02-15
タイトル
タイトル ニュース番組の収録音声を利用した波形接続型音声合成システム
タイトル
言語 en
タイトル Concatenative Speech Synthesis System Using Recordings of Japanese Broadcast News Programs as a Speech Database
言語
言語 jpn
キーワード
主題Scheme Other
主題 特集:音声ドキュメント処理
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_6501
資源タイプ journal article
その他タイトル
その他のタイトル 音声合成
著者所属
日本放送協会放送技術研究所
著者所属
日本放送協会放送技術研究所
著者所属
財団法人NHKエンジニアリングサービス
著者所属
日本放送協会放送技術研究所
著者所属(英)
en
Science and Technical Research Laboratories, Japan Broadcasting Corporation
著者所属(英)
en
Science and Technical Research Laboratories, Japan Broadcasting Corporation
著者所属(英)
en
NHK Engineering Services, Inc.
著者所属(英)
en
Science and Technical Research Laboratories, Japan Broadcasting Corporation
著者名 世木, 寛之 田高, 礼子 清山, 信正 都木, 徹

× 世木, 寛之 田高, 礼子 清山, 信正 都木, 徹

世木, 寛之
田高, 礼子
清山, 信正
都木, 徹

Search repository
著者名(英) Hiroyuki, Segi Reiko, Tako Nobumasa, Seiyama Tohru, Takagi

× Hiroyuki, Segi Reiko, Tako Nobumasa, Seiyama Tohru, Takagi

en Hiroyuki, Segi
Reiko, Tako
Nobumasa, Seiyama
Tohru, Takagi

Search repository
論文抄録
内容記述タイプ Other
内容記述 大規模な音声データベースから音声データを選択して接続する波形接続型音声合成が提案されている.この音声合成方式で利用される大規模音声データベースは,音韻バランスなどを考慮して選定された文章を,音声合成に適した話速やスタイルで読み上げることで作成されることが多い.一方,放送局では過去に放送された番組が大量に保存されているため,これらを音声データベースとして利用することが考えられる.本研究では,ニュース番組の収録音声を,波形接続型音声合成システムの音声データベースとして利用することを試みた.高い頻度で音声データベースに存在する音素列を,前後の音素環境を考慮して抽出した"音素環境依存音素列"を探索単位として合成音を作成し,5段階のオピニオン評価実験を行った結果,MOSは4.01となり,「不自然な部分はあるが気にならない」という自然性を持つ合成音が得られた.特に,全体の39.8%が5の「自然である」と評価され,自然音声と変わらない品質の合成音がかなりの頻度で作成されていることが分かった.次に,目標スコアを用いた場合と,用いない場合の合成音とを比較したところ,MOSの差は0.18となり,音声データベースの発話内容と合成する文が類似している場合には,必ずしも韻律予測せず目標スコアを考慮しなくても,自然性の高い合成音を作成できる可能性が示された.
論文抄録(英)
内容記述タイプ Other
内容記述 Proposals have been made to implement a system that generates synthesized speech by concatenating segments of speech stored in large databases. While these databases are often created by recording sentences with a specific phonetic balance, read at a rate and in a style that are optimal for speech synthesis, this paper explores an alternative method of database creation, one that utilizes broadcast materials archived in networks. In our study, we used samples of recorded speech from news programs to create a speech database. An assessment of speech generated by the speech synthesis method using "context dependent phoneme sequences" as search units yielded the mean opinion score (MOS) of 4.01 in a one-to-five-scale rating. Overall, the samples were considered "somewhat unnatural but not bothersome." In particular, 39.8% of the entire samples scored 5.0, demonstrating their highly natural-sounding quality. In addition, we compared the evaluation on "synthesized speech with target scores" and that on "synthesized speech without target scores." The difference of MOS was 0.18. This result confirmed that prosody prediction or target scores are not necessarily required to create synthesized speech of natural-sounding quality when the content of input sentences is similar to the content of sentences stored in the database.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AN00116647
書誌情報 情報処理学会論文誌

巻 50, 号 2, p. 575-586, 発行日 2009-02-15
ISSN
収録物識別子タイプ ISSN
収録物識別子 1882-7764
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-21 22:39:51.260840
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3