@techreport{oai:ipsj.ixsq.nii.ac.jp:02001773,
 author = {東郷,凜太朗 and 高橋,慧智 and 速水,智教 and 曽我,隆 and 遠藤,新 and 伊達,進},
 issue = {10},
 month = {May},
 note = {テラバイト級のデータセットが用いられる深層学習の計算量は膨大であるため，HPCシステムの必要性が高まっている．大阪大学のHPCシステムSQUIDにおいても分散深層学習の需要は増加傾向にあるが，SQUIDの分散深層学習に対する性能分析は不十分である．本研究では，分散深層学習のベンチマーク集であるMLPerf HPCに含まれるCosmoFlowベンチマークを用い，SQUIDのGPUノードの分散深層学習における性能を評価する．SQUID GPUノード1台を使用してCosmoFlowを実行し，プロファイルを分析した結果，データセットの読み込みがボトルネックとなっていることが明らかになった．読み込み性能を改善するためにデータセットの配置先やデータ入力パイプラインの修正を実施したところ，訓練スループットが6.77倍に向上することを確認した．},
 title = {SQUID GPUノード上でのMLPerf HPCを用いた分散深層学習の性能評価},
 year = {2025}
}