WEKO3
アイテム
HMMを用いた入力音声からの自然な顔動画像生成
https://ipsj.ixsq.nii.ac.jp/records/57533
https://ipsj.ixsq.nii.ac.jp/records/57533c247398d-fa1d-421d-934b-2de1c64ec568
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2000 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2000-02-04 | |||||||
タイトル | ||||||||
タイトル | HMMを用いた入力音声からの自然な顔動画像生成 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | SPEECH -TO- FACIAL MOVEMENT SYNTHESIS USING HMMS | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
奈良先端科学技術大学院大学情報科学研究科 | ||||||||
著者所属 | ||||||||
奈良先端科学技術大学院大学情報科学研究科 | ||||||||
著者所属 | ||||||||
奈良先端科学技術大学院大学情報科学研究科 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Information Science, Nara Institute of Science & Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Information Science, Nara Institute of Science & Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Information Science, Nara Institute of Science & Technology | ||||||||
著者名 |
垣原清次
× 垣原清次
|
|||||||
著者名(英) |
Kiyotsugu, Kakihara
× Kiyotsugu, Kakihara
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 入力音声から音声と同期した自然で現実感のあるコミュニケーションが可能な顔動画像の生成法を提案している.コンピュータを介した人間のコミュニケーションをより自然な形で実現できれば,コンピュータと人間のコミュニケーションの幅を飛躍的に広げることが可能である.我々は,以前に幾つかHMMを用いた音声からの唇動画像生成法を提案しており,特に後続音素の口形状を考慮することにより飛躍的に自然さを増すことに成功している.さらに本稿では,前後続音素の口形状を考慮した生成法を提案し,唇画像から顔3次元モデルへの拡張を行った.ここでは,顔表面3次元計測点に主成分分析を行い,主成分に対応した顔形状を予め作成することにより,入力音声からの自然で忠実な発話顔動画像の生成を実現した. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | This paper describes a talking face generation system with natural and communicative reality. If face movements are synthesized well enough for natural communication, a lot of benefits will be brought for the human-machine communication. We have already proposed a speech driven HMM-based lip movement synthesis, and also shown that the quality is drastically improved by considering succeeding visemes. This paper describes extension of our system to full face movement generation, and proposes a method considering both of preceding and succeeding viseme contexts. The experiments show the proposed method generates natural and accurate talking faces from audio speech inputs. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10442647 | |||||||
書誌情報 |
情報処理学会研究報告音声言語情報処理(SLP) 巻 2000, 号 15(1999-SLP-030), p. 1-6, 発行日 2000-02-04 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |