Item type |
Trans(1) |
公開日 |
2020-09-17 |
タイトル |
|
|
タイトル |
HPCスイッチにおけるルーティングテーブルキャッシュの研究 |
タイトル |
|
|
言語 |
en |
|
タイトル |
A Study of Routing-table Cache on HPC Switches |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
スイッチアーキテクチャ,相互結合網,キャッシュ |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_6501 |
|
資源タイプ |
journal article |
著者所属 |
|
|
|
国立情報学研究所/総合研究大学院大学 |
著者所属 |
|
|
|
電気通信大学大学院 |
著者所属 |
|
|
|
国立情報学研究所/総合研究大学院大学/国立研究開発法人科学技術振興機構,さきがけ |
著者所属(英) |
|
|
|
en |
|
|
National Institute of Informatics / SOKENDAI |
著者所属(英) |
|
|
|
en |
|
|
The University of Electro-Communications |
著者所属(英) |
|
|
|
en |
|
|
National Institute of Informatics / SOKENDAI / JST, PRESTO |
著者名 |
平澤, 将一
八巻, 隼人
鯉渕, 道紘
|
著者名(英) |
Shoichi, Hirasawa
Hayato, Yamaki
Michihiro, Koibuchi
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
HPC(High-Performance Computing)システムにおける並列アプリケーションの性能は,計算ノード間の相互結合網の通信遅延により影響を受ける.相互結合網においてパケットは複数のスイッチを経由して転送されるため,特にメッセージサイズが小さい場合に,スイッチ遅延が通信遅延の支配的要因である.典型的なスイッチでは,ルーティング処理がオフチップCAM(Content Addressable Memory)に基づくテーブルルックアップで実装されるため,大きな遅延が生じる.そこで,本研究ではHPCスイッチにルーティングテーブルキャッシュを適用した場合のスイッチ遅延の削減効果を示す.本HPCスイッチでは,各入力ポートにルーティングテーブルキャッシュを配置する.本キャッシュがヒットした場合,CAMアクセスを避けることができるため,スイッチ遅延を削減することが期待できる.キャッシュのシミュレーション結果より,4ウェイの連想数で2,048エントリのキャッシュを有するスイッチで構成された相互結合網において,512台の計算ノード間の通信に対する競合性ミスの発生は0.1%以下となることが分かった.また,SimGridシミュレーションの結果,256台のスイッチを用いた相互結合網において,ルーティングテーブルキャッシュの導入により,NAS並列ベンチマークの性能を平均6.9%向上させることに成功した.さらに,大規模な相互結合網の解析結果より,ジョブサイズが十分に大きい場合に生じる容量性キャッシュミスが与える通信遅延への影響は限定的であり,本キャッシュを導入することにより,無負荷通信遅延を13%から19%と大幅に削減できることが分かった. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
Parallel applications become sensitive to communication latencies of interconnection networks between compute nodes on HPC (High-Performance Computing) systems. Switch delay dominates communication latencies in interconnection networks especially for short messages, because a packet is transferred to a destination via multiple intermediate switches. At a conventional switch, routing decision is based on off-chip CAM (Content Addressable Memory)-based table lookup, and it imposes a significant delay. In this study, we exploit the application of on-chip routing-table cache for HPC switches. We place routing-table cache at each input port on the switch. The routing-table cache can bypass the CAM table lookup when it hits, then significantly reducing the switch delay. Our cache simulation results show that a 4-way set associative cache with 2,048 entries has less than 0.1% of the conflict miss rate on 256-nodes interconnection networks. Our SimGrid simulation results show that the introduction of routing-table cache on each switch improves 6.9%, in average, of performance of NAS Parallel Benchmarks on 256-node interconnection networks. Our analysis results show that the impact of the capacity cache miss on the communication latency is negligible even if a job size becomes large. The routing-table cache efficiently reduces the zero-load communication latency by 13% to 19%. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AA11833852 |
書誌情報 |
情報処理学会論文誌コンピューティングシステム(ACS)
巻 13,
号 2,
p. 1-12,
発行日 2020-09-17
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
1882-7829 |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |