@article{oai:ipsj.ixsq.nii.ac.jp:00206944, author = {平澤, 将一 and 八巻, 隼人 and 鯉渕, 道紘 and Shoichi, Hirasawa and Hayato, Yamaki and Michihiro, Koibuchi}, issue = {2}, journal = {情報処理学会論文誌コンピューティングシステム(ACS)}, month = {Sep}, note = {HPC(High-Performance Computing)システムにおける並列アプリケーションの性能は,計算ノード間の相互結合網の通信遅延により影響を受ける.相互結合網においてパケットは複数のスイッチを経由して転送されるため,特にメッセージサイズが小さい場合に,スイッチ遅延が通信遅延の支配的要因である.典型的なスイッチでは,ルーティング処理がオフチップCAM(Content Addressable Memory)に基づくテーブルルックアップで実装されるため,大きな遅延が生じる.そこで,本研究ではHPCスイッチにルーティングテーブルキャッシュを適用した場合のスイッチ遅延の削減効果を示す.本HPCスイッチでは,各入力ポートにルーティングテーブルキャッシュを配置する.本キャッシュがヒットした場合,CAMアクセスを避けることができるため,スイッチ遅延を削減することが期待できる.キャッシュのシミュレーション結果より,4ウェイの連想数で2,048エントリのキャッシュを有するスイッチで構成された相互結合網において,512台の計算ノード間の通信に対する競合性ミスの発生は0.1%以下となることが分かった.また,SimGridシミュレーションの結果,256台のスイッチを用いた相互結合網において,ルーティングテーブルキャッシュの導入により,NAS並列ベンチマークの性能を平均6.9%向上させることに成功した.さらに,大規模な相互結合網の解析結果より,ジョブサイズが十分に大きい場合に生じる容量性キャッシュミスが与える通信遅延への影響は限定的であり,本キャッシュを導入することにより,無負荷通信遅延を13%から19%と大幅に削減できることが分かった., Parallel applications become sensitive to communication latencies of interconnection networks between compute nodes on HPC (High-Performance Computing) systems. Switch delay dominates communication latencies in interconnection networks especially for short messages, because a packet is transferred to a destination via multiple intermediate switches. At a conventional switch, routing decision is based on off-chip CAM (Content Addressable Memory)-based table lookup, and it imposes a significant delay. In this study, we exploit the application of on-chip routing-table cache for HPC switches. We place routing-table cache at each input port on the switch. The routing-table cache can bypass the CAM table lookup when it hits, then significantly reducing the switch delay. Our cache simulation results show that a 4-way set associative cache with 2,048 entries has less than 0.1% of the conflict miss rate on 256-nodes interconnection networks. Our SimGrid simulation results show that the introduction of routing-table cache on each switch improves 6.9%, in average, of performance of NAS Parallel Benchmarks on 256-node interconnection networks. Our analysis results show that the impact of the capacity cache miss on the communication latency is negligible even if a job size becomes large. The routing-table cache efficiently reduces the zero-load communication latency by 13% to 19%.}, pages = {1--12}, title = {HPCスイッチにおけるルーティングテーブルキャッシュの研究}, volume = {13}, year = {2020} }