@techreport{oai:ipsj.ixsq.nii.ac.jp:00241185, author = {尾崎, 安範 and 三嶋, 隆史 and 冨平, 準喜 and Yasunori, Ozaki and Ryuji, Mishima and Toshiki, Tomihira}, issue = {40}, month = {Nov}, note = {本研究では,著作権に配慮した透明性の高い画像生成モデルである CommonArt を提案する.データセットには CC-0 や CC-BY といった改変可能な画像約 2500 万枚と合成キャプション 5000 万個を使い,アルゴリズムには拡散トランスフォーマーを国産 LLM で条件付けすることとした. 30000 L4 GPU 時間による学習の結果,FID といった画像品質や CLIP Score といった指示追従の観点から日本語と英語を総合して定量評価した場合,従来の手法よりも最も高い性能になることが示された.今後は動画生成モデルへの応用が考えられる., In this paper, we propose CommonArt, a transparent image generation model that respects copyright. The dataset consists of approximately 25 million modifiable images under licenses such as CC-0 and CC-BY. For the algorithm, we used a diffusion transformer conditioned on a domestically developed LLM. After 30,000 L4 GPU hours of training, quantitative evaluation combining Japanese and English metrics in terms of image quality and instruction following showed that our method achieved the highest performance compared to conventional approaches. Future work may include applications to video generation models.}, title = {CommonArt: 国産大規模言語モデルによる透明性の高い画像生成用拡散トランスフォーマー}, year = {2024} }