@techreport{oai:ipsj.ixsq.nii.ac.jp:00145095,
 author = {桑原, 悠太 and 塙, 敏博 and 朴, 泰祐},
 issue = {12},
 month = {Sep},
 note = {近年，GPU クラスタでは，GPU プログラミング環境として CUDA (Compute Unified Device Architecture) が標準的に用いられている．GPU クラスタ上での並列アプリケーションでは，CUDA 環境おいて，ノードを跨ぐ GPU 間通信が発生し，MPI などによりホスト CPU が処理するのが一般的である．そのため，通信が発生する毎に GPU 上の CUDA カーネルからホストに一旦制御を戻す必要があり，カーネル関数の起動や同期に伴うオーバーヘッドが生じる．特に並列処理における通信粒度が細かいほど，カーネル関数の起動回数も増え，オーバーヘッドも増加する．それだけでなく，プログラミングのコストが高く，CPU 向け MPI プログラムを GPU 並列化する場合にソースコードが煩雑になりやすいといった生産性の低下も問題となっている．これらの問題を解決するために，本研究では GPU カーネル内から MPI 通信の起動を可能とする並列通信システム “GMPI” を提案・開発する．これにより，並列 GPU プログラミングを簡単化し，GPU カーネルの起動や同期に伴うオーバーヘッド削減による並列処理効率の向上を目指す．本稿では，GMPI の実装と，Ping-Pong 通信および姫野ベンチマークの性能評価を行う．現状では性能最適化やチューニングが十分でなく，Ping-Pong 通信では従来方式とほぼ同等の性能であるが，姫野ベンチマークでは従来手法の約半分の性能が得られている．},
 title = {GMPI：GPUクラスタにおけるGPUセルフMPIの提案},
 year = {2015}
}