@techreport{oai:ipsj.ixsq.nii.ac.jp:00210515,
 author = {横手, 宥則 and 三輪, 忍 and 八巻, 隼人 and 本多, 弘樹},
 issue = {17},
 month = {Mar},
 note = {深層学習には膨大な計算時間を要することから,複数 GPU を用いた並列化が行われることが多い.深層学習の並列化方式の 1 つのモデル並列化に対応した言語として Mesh TensorFlow が提案されている.Mesh TensorFlow は最初のバージョンがリリースされてからまだ日が浅く,利用法に関する知見が十分に得られているとは言い難い.そこで本稿では,Mesh TensorFlow を用いたモデル並列化において CPU-GPU 間のデータ転送の最適化を行う.具体的には,Mesh TensorFlow のサンプルコードで CPU から GPU への訓練データ転送を特定の GPU を経由するのではなく,CPU から各 GPU に並列に直接転送するようにする.これにより,経由していた GPU メモリの利用効率改善とデータ転送時間の短縮が期待できる.評価の結果,上記の最適化によって最適化前よりも訓練データ転送時間を 短縮可能であり,また経由地となっていた GPU の使用メモリ量も削減可能なことを確認できた.},
 title = {Mesh TensorFlowを用いたモデル並列学習におけるCPU-GPU間のデータ転送最適化},
 year = {2021}
}