ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 研究報告
  2. コンピュータビジョンとイメージメディア(CVIM)
  3. 2021
  4. 2021-CVIM-225

SpatialおよびChannel-wiseなAttention機構と敵対的生成による文章から顔画像生成・編集

https://ipsj.ixsq.nii.ac.jp/records/209801
https://ipsj.ixsq.nii.ac.jp/records/209801
df4bf2ff-0cf8-43df-8188-ba06a3248585
名前 / ファイル ライセンス アクション
IPSJ-CVIM21225003.pdf IPSJ-CVIM21225003.pdf (5.5 MB)
Copyright (c) 2021 by the Information Processing Society of Japan
オープンアクセス
Item type SIG Technical Reports(1)
公開日 2021-02-25
タイトル
タイトル SpatialおよびChannel-wiseなAttention機構と敵対的生成による文章から顔画像生成・編集
タイトル
言語 en
タイトル Spatial and Channel-wise Attention in Generative Adversarial Network for Text-to-Face Synthesis and Manipulation
言語
言語 eng
キーワード
主題Scheme Other
主題 セッション1-1
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_18gh
資源タイプ technical report
著者所属
立命館大学情報科学研究科
著者所属
立命館大学情報科学研究科
著者所属(英)
en
College of Information Science and Engineering, Ritsumeikan University
著者所属(英)
en
College of Information Science and Engineering, Ritsumeikan University
著者名 周, 禹トウ

× 周, 禹トウ

周, 禹トウ

Search repository
島田, 伸敬

× 島田, 伸敬

島田, 伸敬

Search repository
著者名(英) Yutong, Zhou

× Yutong, Zhou

en Yutong, Zhou

Search repository
Nobutaka, Shimada

× Nobutaka, Shimada

en Nobutaka, Shimada

Search repository
論文抄録
内容記述タイプ Other
内容記述 文章から写実的な画像の生成を行う技術は近年盛んに研究されている挑戦的な研究課題である.文章からの顔画像生成は防犯保安分野・アートの創作・画像編集・画像検索などにおいて大きな可能性を秘めているが,データセットが欠けているため,先行研究はあまりない.本論文では,Spatial-wise および Channel-wise な Attention 機構を導入した敵対的生成ネットワークによる文章から顔画像生成手法を提案する.高解像度顔画像の生成だけでなく,様々な顔局所属性(例えば,目,口,肌,髪,年齢など)を顔全体の人相の同一性を維持しつつ,相関するキーワードを指定して局所的に編集することができる.さらに,新しい Flickr-Faces-HQ 高解像度の顔画像(1024×1024)を収集し,テキスト注釈とバウンディングボックスを付けるデータセット(FFHQ-Text)を作る.FFHQ-Text データセットを用いた実験結果より,提案手法によって生成された顔画像が,既存手法(AttnGAN)より量的質的に優れていることを示す.
論文抄録(英)
内容記述タイプ Other
内容記述 Several studies have been conducted on text-to-image synthesis techniques that transfer text descriptions into realistic images over recent years. However, due to the lack of dataset, there is almost no previous research focusing on text-to-face (T2F) synthesis, which possesses significant potential in public safety and security, art creation, image editing, image retrieval, etc. In this paper, we propose a T2F generative adversarial network with spatial-wise and channel-wise attention mechanisms, which can not only synthesize high-resolution facial images but also manipulate various facial local attributes (e.g., eyes, mouth, skin, hair, age, etc.) with the correlated keywords while preserving the identity's facial characteristics. In addition, we collect and annotate a novel Flickr-Faces-HQ with Text descriptions dataset (FFHQ-Text), which consists of high-resolution face images (1024×1024) with text descriptions and bounding boxes. The experimental results on our FFHQ-Text dataset show that the face images generated by the proposed algorithm perform superior both in quality and quantity than the existing text-to-image synthesis approach - AttnGAN.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AA11131797
書誌情報 研究報告コンピュータビジョンとイメージメディア(CVIM)

巻 2021-CVIM-225, 号 3, p. 1-8, 発行日 2021-02-25
ISSN
収録物識別子タイプ ISSN
収録物識別子 2188-8701
Notice
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-19 18:23:07.779991
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3