ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 研究報告
  2. コンピュータビジョンとイメージメディア(CVIM)
  3. 2024
  4. 2024-CVIM-239

CommonArt: 国産大規模言語モデルによる透明性の高い画像生成用拡散トランスフォーマー

https://ipsj.ixsq.nii.ac.jp/records/241185
https://ipsj.ixsq.nii.ac.jp/records/241185
f49e5d09-b747-46ed-9d02-712d572bbb5f
名前 / ファイル ライセンス アクション
IPSJ-CVIM24239040.pdf IPSJ-CVIM24239040.pdf (3.5 MB)
Copyright (c) 2024 by the Institute of Electronics, Information and Communication Engineers This SIG report is only available to those in membership of the SIG.
CVIM:会員:¥0, DLIB:会員:¥0
Item type SIG Technical Reports(1)
公開日 2024-11-22
タイトル
タイトル CommonArt: 国産大規模言語モデルによる透明性の高い画像生成用拡散トランスフォーマー
タイトル
言語 en
タイトル CommonArt: Diffusion Transformer for Text-to-Image Generation by Japanese Large Language Model
言語
言語 jpn
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_18gh
資源タイプ technical report
著者所属
本部, 株式会社AIdeaLab
著者所属
本部, 株式会社AI Picasso
著者所属
本部, 株式会社AIdeaLab
著者所属(英)
en
Head Quarters, AIdeaLab, Inc.
著者所属(英)
en
Head Quarters, AI Picasso, Inc.
著者所属(英)
en
Head Quarters, AIdeaLab, Inc.
著者名 尾崎, 安範

× 尾崎, 安範

尾崎, 安範

Search repository
三嶋, 隆史

× 三嶋, 隆史

三嶋, 隆史

Search repository
冨平, 準喜

× 冨平, 準喜

冨平, 準喜

Search repository
著者名(英) Yasunori, Ozaki

× Yasunori, Ozaki

en Yasunori, Ozaki

Search repository
Ryuji, Mishima

× Ryuji, Mishima

en Ryuji, Mishima

Search repository
Toshiki, Tomihira

× Toshiki, Tomihira

en Toshiki, Tomihira

Search repository
論文抄録
内容記述タイプ Other
内容記述 本研究では,著作権に配慮した透明性の高い画像生成モデルである CommonArt を提案する.データセットには CC-0 や CC-BY といった改変可能な画像約 2500 万枚と合成キャプション 5000 万個を使い,アルゴリズムには拡散トランスフォーマーを国産 LLM で条件付けすることとした. 30000 L4 GPU 時間による学習の結果,FID といった画像品質や CLIP Score といった指示追従の観点から日本語と英語を総合して定量評価した場合,従来の手法よりも最も高い性能になることが示された.今後は動画生成モデルへの応用が考えられる.
論文抄録(英)
内容記述タイプ Other
内容記述 In this paper, we propose CommonArt, a transparent image generation model that respects copyright. The dataset consists of approximately 25 million modifiable images under licenses such as CC-0 and CC-BY. For the algorithm, we used a diffusion transformer conditioned on a domestically developed LLM. After 30,000 L4 GPU hours of training, quantitative evaluation combining Japanese and English metrics in terms of image quality and instruction following showed that our method achieved the highest performance compared to conventional approaches. Future work may include applications to video generation models.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AA11131797
書誌情報 研究報告コンピュータビジョンとイメージメディア(CVIM)

巻 2024-CVIM-239, 号 40, p. 1-6, 発行日 2024-11-22
ISSN
収録物識別子タイプ ISSN
収録物識別子 2188-8701
Notice
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-19 07:43:03.805043
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3