| Item type |
SIG Technical Reports(1) |
| 公開日 |
2021-02-25 |
| タイトル |
|
|
タイトル |
SpatialおよびChannel-wiseなAttention機構と敵対的生成による文章から顔画像生成・編集 |
| タイトル |
|
|
言語 |
en |
|
タイトル |
Spatial and Channel-wise Attention in Generative Adversarial Network for Text-to-Face Synthesis and Manipulation |
| 言語 |
|
|
言語 |
eng |
| キーワード |
|
|
主題Scheme |
Other |
|
主題 |
セッション1-1 |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
| 著者所属 |
|
|
|
立命館大学情報科学研究科 |
| 著者所属 |
|
|
|
立命館大学情報科学研究科 |
| 著者所属(英) |
|
|
|
en |
|
|
College of Information Science and Engineering, Ritsumeikan University |
| 著者所属(英) |
|
|
|
en |
|
|
College of Information Science and Engineering, Ritsumeikan University |
| 著者名 |
周, 禹トウ
島田, 伸敬
|
| 著者名(英) |
Yutong, Zhou
Nobutaka, Shimada
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
文章から写実的な画像の生成を行う技術は近年盛んに研究されている挑戦的な研究課題である.文章からの顔画像生成は防犯保安分野・アートの創作・画像編集・画像検索などにおいて大きな可能性を秘めているが,データセットが欠けているため,先行研究はあまりない.本論文では,Spatial-wise および Channel-wise な Attention 機構を導入した敵対的生成ネットワークによる文章から顔画像生成手法を提案する.高解像度顔画像の生成だけでなく,様々な顔局所属性(例えば,目,口,肌,髪,年齢など)を顔全体の人相の同一性を維持しつつ,相関するキーワードを指定して局所的に編集することができる.さらに,新しい Flickr-Faces-HQ 高解像度の顔画像(1024×1024)を収集し,テキスト注釈とバウンディングボックスを付けるデータセット(FFHQ-Text)を作る.FFHQ-Text データセットを用いた実験結果より,提案手法によって生成された顔画像が,既存手法(AttnGAN)より量的質的に優れていることを示す. |
| 論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
Several studies have been conducted on text-to-image synthesis techniques that transfer text descriptions into realistic images over recent years. However, due to the lack of dataset, there is almost no previous research focusing on text-to-face (T2F) synthesis, which possesses significant potential in public safety and security, art creation, image editing, image retrieval, etc. In this paper, we propose a T2F generative adversarial network with spatial-wise and channel-wise attention mechanisms, which can not only synthesize high-resolution facial images but also manipulate various facial local attributes (e.g., eyes, mouth, skin, hair, age, etc.) with the correlated keywords while preserving the identity's facial characteristics. In addition, we collect and annotate a novel Flickr-Faces-HQ with Text descriptions dataset (FFHQ-Text), which consists of high-resolution face images (1024×1024) with text descriptions and bounding boxes. The experimental results on our FFHQ-Text dataset show that the face images generated by the proposed algorithm perform superior both in quality and quantity than the existing text-to-image synthesis approach - AttnGAN. |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AA11131797 |
| 書誌情報 |
研究報告コンピュータビジョンとイメージメディア(CVIM)
巻 2021-CVIM-225,
号 3,
p. 1-8,
発行日 2021-02-25
|
| ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8701 |
| Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |