WEKO3
アイテム
拡散モデルを用いたマルチモーダル画像の素材認識
https://ipsj.ixsq.nii.ac.jp/records/234142
https://ipsj.ixsq.nii.ac.jp/records/2341426cb993c7-8fc3-4048-8cc2-d666f8dc9989
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]()
2026年5月8日からダウンロード可能です。
|
Copyright (c) 2024 by the Information Processing Society of Japan
|
|
非会員:¥660, IPSJ:学会員:¥330, CVIM:会員:¥0, DLIB:会員:¥0 |
Item type | SIG Technical Reports(1) | |||||||||
---|---|---|---|---|---|---|---|---|---|---|
公開日 | 2024-05-08 | |||||||||
タイトル | ||||||||||
タイトル | 拡散モデルを用いたマルチモーダル画像の素材認識 | |||||||||
言語 | ||||||||||
言語 | jpn | |||||||||
キーワード | ||||||||||
主題Scheme | Other | |||||||||
主題 | 卒論スポットライトセッション (CVIM) | |||||||||
資源タイプ | ||||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||||
資源タイプ | technical report | |||||||||
著者所属 | ||||||||||
京都大学大学院情報学研究科 | ||||||||||
著者所属 | ||||||||||
京都大学大学院情報学研究科 | ||||||||||
著者名 |
吉井, 信雄
× 吉井, 信雄
× 西野, 恒
|
|||||||||
論文抄録 | ||||||||||
内容記述タイプ | Other | |||||||||
内容記述 | ロボティクスや自動運転など様々な分野で,コンピュータが物体を認識し人間の動作を代替しているが,物体の認識だけでなく物体が何の「素材」であるかの認識も重要である.例えば,ロボットが机の上の皿を持ち上げるとき,「紙」の皿は「ガラス」の皿と比べて弱い力で持ち上げる必要がある.自動運転では,路面が「アスファルト」か「砂」か,「水」で濡れているかなどによる制動距離の変化に対応できる.近年,Multimodal Material Segmentation (MMS) により,RGB 画像・偏光画像・近赤外画像を含むマルチモーダル画像を,RGB 画像をもとに推定される物体認識(Semantic Segmentation)とともに用いることで,RGB 画像のみを使用する場合と比較してより高い精度で素材を認識できることが示されている.我々は,素材情報を豊富に含むマルチモーダル画像から素材認識に有用な特徴量を得るため,昨今画像生成モデルとして注目されている拡散モデルを用いた新たな手法を提案する.拡散モデルは,RGB 画像を生成する過程で被写体の意味的な情報を保持していることが知られている.提案手法では,この拡散モデルの特性を応用して,マルチモーダル画像および対応する Semantic Segmentation から,複数の特徴量を抽出し,素材認識を行った.本手法は,MMS よりも高い平均素材推定精度を達成した. | |||||||||
書誌レコードID | ||||||||||
収録物識別子タイプ | NCID | |||||||||
収録物識別子 | AA11131797 | |||||||||
書誌情報 |
研究報告コンピュータビジョンとイメージメディア(CVIM) 巻 2024-CVIM-238, 号 11, p. 1-8, 発行日 2024-05-08 |
|||||||||
ISSN | ||||||||||
収録物識別子タイプ | ISSN | |||||||||
収録物識別子 | 2188-8701 | |||||||||
Notice | ||||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||||
出版者 | ||||||||||
言語 | ja | |||||||||
出版者 | 情報処理学会 |