@techreport{oai:ipsj.ixsq.nii.ac.jp:00210515,
 author = {横手, 宥則 and 三輪, 忍 and 八巻, 隼人 and 本多, 弘樹},
 issue = {17},
 month = {Mar},
 note = {深層学習には膨大な計算時間を要することから，複数 GPU を用いた並列化が行われることが多い．深層学習の並列化方式の 1 つのモデル並列化に対応した言語として Mesh TensorFlow が提案されている．Mesh TensorFlow は最初のバージョンがリリースされてからまだ日が浅く，利用法に関する知見が十分に得られているとは言い難い．そこで本稿では，Mesh TensorFlow を用いたモデル並列化において CPU-GPU 間のデータ転送の最適化を行う．具体的には，Mesh TensorFlow のサンプルコードで CPU から GPU への訓練データ転送を特定の GPU を経由するのではなく，CPU から各 GPU に並列に直接転送するようにする．これにより，経由していた GPU メモリの利用効率改善とデータ転送時間の短縮が期待できる．評価の結果，上記の最適化によって最適化前よりも訓練データ転送時間を 短縮可能であり，また経由地となっていた GPU の使用メモリ量も削減可能なことを確認できた．},
 title = {Mesh TensorFlowを用いたモデル並列学習におけるCPU-GPU間のデータ転送最適化},
 year = {2021}
}