Item type |
SIG Technical Reports(1) |
公開日 |
2024-11-22 |
タイトル |
|
|
タイトル |
CommonArt: 国産大規模言語モデルによる透明性の高い画像生成用拡散トランスフォーマー |
タイトル |
|
|
言語 |
en |
|
タイトル |
CommonArt: Diffusion Transformer for Text-to-Image Generation by Japanese Large Language Model |
言語 |
|
|
言語 |
jpn |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
本部, 株式会社AIdeaLab |
著者所属 |
|
|
|
本部, 株式会社AI Picasso |
著者所属 |
|
|
|
本部, 株式会社AIdeaLab |
著者所属(英) |
|
|
|
en |
|
|
Head Quarters, AIdeaLab, Inc. |
著者所属(英) |
|
|
|
en |
|
|
Head Quarters, AI Picasso, Inc. |
著者所属(英) |
|
|
|
en |
|
|
Head Quarters, AIdeaLab, Inc. |
著者名 |
尾崎, 安範
三嶋, 隆史
冨平, 準喜
|
著者名(英) |
Yasunori, Ozaki
Ryuji, Mishima
Toshiki, Tomihira
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
本研究では,著作権に配慮した透明性の高い画像生成モデルである CommonArt を提案する.データセットには CC-0 や CC-BY といった改変可能な画像約 2500 万枚と合成キャプション 5000 万個を使い,アルゴリズムには拡散トランスフォーマーを国産 LLM で条件付けすることとした. 30000 L4 GPU 時間による学習の結果,FID といった画像品質や CLIP Score といった指示追従の観点から日本語と英語を総合して定量評価した場合,従来の手法よりも最も高い性能になることが示された.今後は動画生成モデルへの応用が考えられる. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
In this paper, we propose CommonArt, a transparent image generation model that respects copyright. The dataset consists of approximately 25 million modifiable images under licenses such as CC-0 and CC-BY. For the algorithm, we used a diffusion transformer conditioned on a domestically developed LLM. After 30,000 L4 GPU hours of training, quantitative evaluation combining Japanese and English metrics in terms of image quality and instruction following showed that our method achieved the highest performance compared to conventional approaches. Future work may include applications to video generation models. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AA11131797 |
書誌情報 |
研究報告コンピュータビジョンとイメージメディア(CVIM)
巻 2024-CVIM-239,
号 40,
p. 1-6,
発行日 2024-11-22
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8701 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |