WEKO3
アイテム
電子書籍の論理構造に基づくポーズ情報の推定とSSML構造化
https://ipsj.ixsq.nii.ac.jp/records/73738
https://ipsj.ixsq.nii.ac.jp/records/73738efaad3da-f143-43b3-9eab-d9103f93671a
| 名前 / ファイル | ライセンス | アクション |
|---|---|---|
|
|
Copyright (c) 2011 by the Information Processing Society of Japan
|
|
| オープンアクセス | ||
| Item type | SIG Technical Reports(1) | |||||||
|---|---|---|---|---|---|---|---|---|
| 公開日 | 2011-03-21 | |||||||
| タイトル | ||||||||
| タイトル | 電子書籍の論理構造に基づくポーズ情報の推定とSSML構造化 | |||||||
| タイトル | ||||||||
| 言語 | en | |||||||
| タイトル | Pause estimation based on e-book logical structures and SSML transformation | |||||||
| 言語 | ||||||||
| 言語 | jpn | |||||||
| キーワード | ||||||||
| 主題Scheme | Other | |||||||
| 主題 | 電子書籍 | |||||||
| 資源タイプ | ||||||||
| 資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
| 資源タイプ | technical report | |||||||
| 著者所属 | ||||||||
| 東芝研究開発センター | ||||||||
| 著者所属 | ||||||||
| 東芝研究開発センター | ||||||||
| 著者所属 | ||||||||
| 東芝研究開発センター | ||||||||
| 著者所属(英) | ||||||||
| en | ||||||||
| TOSHIBA CORPORATION Corporate Research & Development Center | ||||||||
| 著者所属(英) | ||||||||
| en | ||||||||
| TOSHIBA CORPORATION Corporate Research & Development Center | ||||||||
| 著者所属(英) | ||||||||
| en | ||||||||
| TOSHIBA CORPORATION Corporate Research & Development Center | ||||||||
| 著者名 |
布目, 光生
鈴木, 優
森田, 眞弘
× 布目, 光生 鈴木, 優 森田, 眞弘
|
|||||||
| 著者名(英) |
Kosei, Fume
Masaru, Suzuki
Masahiro, Morita
× Kosei, Fume Masaru, Suzuki Masahiro, Morita
|
|||||||
| 論文抄録 | ||||||||
| 内容記述タイプ | Other | |||||||
| 内容記述 | 電子書籍を音声合成で読み上げる場合に,文書の書式特徴を活用してより聞きやすい朗読を実現するテキスト前処理手段を提案する.文を処理の基本単位とする従来の発話手法では困難な,タイトルや箇条書きと本文を区別したような読み方や,文書全体の構成や流れを考慮したような,自然な読み上げの実現を目指す.今回,具体的なアプローチとして,入力文書テキストの特徴量として論理構造をはじめとする抽出手段と,特にポーズ情報に関連したメタデータの推定手段,そして,音声合成エンジンへ提供するための XML 化,という一連のテキスト処理機能の試作と,ポーズ情報の付与精度評価を行った.本報告では,これらの手法と評価実験結果について述べる. | |||||||
| 論文抄録(英) | ||||||||
| 内容記述タイプ | Other | |||||||
| 内容記述 | We conduct feasibility studies for the development of a text preprocessing technique that uses document formatting features for improved natural speech synthesis with the aim of targeting e-book readers. In traditional text-to-speech (TTS) systems, it is difficult to implement a feature by which the different document elements such as the document body, title, and itemized forms are read in a suitable tone. We implement certain functionalities, namely a sentence characteristics extractor that determines the logical nature of a document element, a metadata estimator that generates pause information, and a transformer that converts these results to speech synthesis markup language, which a TTS system can process. Details about these processes and experimental results of a simple implementation of pause estimation are described in this report. | |||||||
| 書誌レコードID | ||||||||
| 収録物識別子タイプ | NCID | |||||||
| 収録物識別子 | AN10539261 | |||||||
| 書誌情報 |
研究報告デジタルドキュメント(DD) 巻 2011-DD-80, 号 6, p. 1-7, 発行日 2011-03-21 |
|||||||
| Notice | ||||||||
| SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
| 出版者 | ||||||||
| 言語 | ja | |||||||
| 出版者 | 情報処理学会 | |||||||