@techreport{oai:ipsj.ixsq.nii.ac.jp:00224532, author = {吉川, 天斗 and 遠藤, 結城 and 金森, 由博}, issue = {17}, month = {Feb}, note = {本研究では,人物全身画像を対象に StyleGAN の生成画像をテキスト入力によって制御する問題に取り組む.既存手法では対象ドメインを人や動物の顔に絞っており,人物全身画像のように服装や体型などの多様性が高いドメインには適していない.そこで本研究では,ネットワークアーキテクチャの工夫と推論時のマスク処理によって,人物全身画像でも高品質なテキスト制御を実現する.提案手法では,既存手法と同様に StyleGAN の潜在変数をテキストに従って操作する Mapper Network を学習させるアプローチを採用する.しかし,既存手法の Mapper Network ではテキストが正確に画像に反映されないため,Transformer をベースとしたネットワークアーキテクチャを提案する.また,テキストとは無関係な領域の編集を避けるため,推論時の特徴空間におけるマスク処理を導入する.実験結果を通して,提案手法では既存手法よりも高品質な人物全身画像のテキスト制御が可能であることを示す.}, title = {StyleGANを用いたテキストによる人物画像の服装編集手法}, year = {2023} }