@techreport{oai:ipsj.ixsq.nii.ac.jp:00217342,
 author = {奥山, 裕大 and 金森, 由博 and 遠藤, 結城 and 三谷, 純},
 issue = {9},
 month = {Mar},
 note = {人物画像の各ピクセルに対して髪やシャツ,スカートなど写っているもののラベルを推定する意味的領域分割が盛んに研究されている.現在の主流であるニューラルネットワークを用いた手法は RGB 画像のみを入力として,主に色の違いに基づいて領域を判断している.しかし,例えば同じ色のスーツの上下 (ジャケットとパンツ) など,色情報のみでは衣服の境界を識別できない場合がある.そこで本研究では既存手法とは異なり,人物に関する三次元情報を活用することで人物画像の意味的領域分割の精度を向上させる.三次元情報としては法線マップに着目し,人物画像から別途推定して利用する.本研究では,Transformer に基づく最新のネットワークに基づき,RGB 画像のみを入力とするネットワークと法線情報を入出力に含むネットワークによるアンサンブルを検討した.最終的な意味ラベルを決めるための Soft Voting の方法として,個別ネットワークが出力する確率の単純平均と,不確実性に基づく加重平均を検討した.提案するアンサンブル手法により,RGB 画像のみを入力とした場合に比べて精度良く意味ラベルを推定できることを示す.},
 title = {三次元情報を考慮した人物画像の意味的領域分割},
 year = {2022}
}