| Item type |
SIG Technical Reports(1) |
| 公開日 |
2024-02-25 |
| タイトル |
|
|
タイトル |
述語論理を用いた拡散モデルによるテキストに忠実な画像生成 |
| タイトル |
|
|
言語 |
en |
|
タイトル |
Attention Guidance Based on Predicate Logic for Text-to-Image Diffusion Models |
| 言語 |
|
|
言語 |
jpn |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
| 著者所属 |
|
|
|
大阪大学大学院基礎工学研究科 |
| 著者所属 |
|
|
|
大阪大学大学院基礎工学研究科 |
| 著者所属(英) |
|
|
|
en |
|
|
Graduate School of Engineering Science, Osaka University |
| 著者所属(英) |
|
|
|
en |
|
|
Graduate School of Engineering Science, Osaka University |
| 著者名 |
末吉, 耕大
松原, 崇
|
| 著者名(英) |
Kota, Sueyoshi
Takashi, Matsubara
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
拡散モデルは近年めざましい成功を収めているが,テキストからの画像生成ではユーザーの意図を捉える難しさがある.例えば,指定物体の消失や所有関係の無視が問題である.このような問題に対処するため,本手法では Attention Map の一画素を述語として捉え,述語論理を用いて設定した命題を満たすように画像生成を行う.検証では様々なテキストに対し,本手法が有効であることがわかった. |
| 論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
Diffusion models have achieved remarkable success in recent years, but there is a difficulty in capturing user intent in text-to-image generation. For example, issues such as the absence of specified objects or the disregard of ownership relationships are problematic. To address these issues, our method interprets a pixel of attention as a predicate and uses predicate logic to generate images that satisfy the set propositions. In verification, it was found that this method is effective for various texts. |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AA11131797 |
| 書誌情報 |
研究報告コンピュータビジョンとイメージメディア(CVIM)
巻 2024-CVIM-237,
号 17,
p. 1-8,
発行日 2024-02-25
|
| ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8701 |
| Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |