Item type |
SIG Technical Reports(1) |
公開日 |
2022-11-21 |
タイトル |
|
|
タイトル |
3D Stacked SRAMを活用したHPC向けメモリアーキテクチャの検討 |
タイトル |
|
|
言語 |
en |
|
タイトル |
A study of memory architecture for HPC with 3D stacked SRAM |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
設計技術 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
富士通株式会社 |
著者所属 |
|
|
|
東京工業大学 |
著者所属 |
|
|
|
富士通株式会社 |
著者所属 |
|
|
|
東京工業大学 |
著者所属(英) |
|
|
|
en |
|
|
Fujitsu ltd. |
著者所属(英) |
|
|
|
en |
|
|
Tokyo Institute of Technology |
著者所属(英) |
|
|
|
en |
|
|
Fujitsu ltd. |
著者所属(英) |
|
|
|
en |
|
|
Tokyo Institute of Technology |
著者名 |
萩原, 汐
幸, 朋矢
吉川, 隆英
遠藤, 敏夫
|
著者名(英) |
Shiho, Hagiwara
Tomoya, Yuki
Takahide, Yoshikawa
Toshio, Endo
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
近年のハイパフォーマンスコンピューティングでは,メインメモリからのデータ転送がボトルネックとなり演算速度を律速してしまうことが課題になっている.このボトルネックを解消するには,大容量・広帯域キャッシュメモリを使って,多くのデータを高速に演算器に供給することが有効である.このようなキャッシュメモリを実現するため,本報告ではアクセラレータダイとキャッシュメモリダイの 2 枚のダイを積層する 3 次元積層ダイのアーキテクチャを検討した.具体的には,積層順,接続面,キャッシュメモリ構成の 3 点を検討した.積層順については,放熱の点からアクセラレータダイを上側においた方が良く,接続面については,ダイ間のバンド幅の観点から F2F 接続が良いことを示した.また,キャッシュメモリ構成については,小容量メモリを多数搭載する構成から大容量メモリを少数搭載する構成の 4 つの構成を,実ワークロードの推定実行時間を使って比較検討した.ワークロードは DGEMM,STREAM,SpMV の 3 種類を使用し,実行時間推定には PMNet (Performance prediction of Memory Network) を使った.その結果,広帯域アクセスを実現できる小容量メモリを多数使用する構成の方が,より高速な演算を実現できることを明らかにした. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
In recent high-performance computing, the memory wall, where the data transfer rate does not keep pace with the speed of the processing unit, has become an issue. It is necessary to provide a large amount of data to the processor at high speed using a large-capacity, wide-bandwidth cache memory. To implement this type of cache memory, we investigated a 3D stacked die architecture in which two dies, an accelerator die and a cache memory die, are stacked. Specifically, we discussed three points: stacking order, connection surfaces, and cache memory structure. For the stacking order, the accelerator die should be on top for heat dissipation. For the connection surface, a F2F connection is preferable to increase the band-width between dies. We compared four structures to investigate the cache memory structure, ranging from a many-small-memory one to a single-large-memory one. We prepared three workloads, DGEMM, STREAM, and SpMV, and estimated the execution time using PMNet (Performance prediction of Memory Network). The results show that the configuration with many small memories that can achieve wide bandwidth access can perform faster calculations. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AA11451459 |
書誌情報 |
研究報告システムとLSIの設計技術(SLDM)
巻 2022-SLDM-200,
号 31,
p. 1-6,
発行日 2022-11-21
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8639 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |