2024-03-29T02:06:19Zhttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_oaipmhoai:ipsj.ixsq.nii.ac.jp:001073222023-04-27T10:00:04Z01164:02240:07465:07756
密結合並列演算加速機構TCAを用いたGPU間直接通信によるCollective通信の実装と予備評価jpnGPUhttp://id.nii.ac.jp/1001/00107298/Technical Reporthttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_action_common_download&item_id=107322&item_no=1&attribute_id=1&file_no=1Copyright (c) 2014 by the Information Processing Society of Japan筑波大学計算科学研究センター東京大学情報基盤センター筑波大学計算科学研究センター/筑波大学大学院システム情報工学研究科筑波大学大学院システム情報工学研究科筑波大学計算科学研究センター/筑波大学大学院システム情報工学研究科松本, 和也塙, 敏博児玉, 祐悦藤井, 久史朴, 泰祐筑波大学計算科学研究センターでは,GPU クラスタにおけるノード間に跨る GPU 間通信のレイテンシ改善を目的とした密結合並列演算加速機構 TCA(Tightly Coupled Accelerators) を独自開発している.本稿では,Broadcast,Scatter,Gather,Reduce,Allgather,Allreduce の 6 つの Collective 通信の TCA による実装と,その性能を TCA 実証環境の GPU クラスタである HA-PACS/TCA において評価した結果を述べる.TCA による実装は通信レイテンシが問題となる小さめなサイズの Collective 通信において,MPI による Collective 通信と比べて高速にその通信処理を行うことが可能であることを示す.実装した Collective 通信の利用した CG 法の実装およびその性能についても述べる.本研究で用いる CG 法の並列アルゴリズムは,Allgather と Allreduce をその通信部分に用いるものである.TCA による Collective 通信を用いた CG 法実装は,疎行列のサイズ (行数) が数千から数万の場合では MPI の Collective 通信を用いた実装よりも高い性能を達成できることを示す.AN10463942研究報告ハイパフォーマンスコンピューティング(HPC)2014-HPC-147231102014-12-022014-12-01