| Item type |
SIG Technical Reports(1) |
| 公開日 |
2026-03-09 |
| タイトル |
|
|
言語 |
ja |
|
タイトル |
Cerebras CS-3における密行列積アルゴリズムの性能比較 |
| 言語 |
|
|
言語 |
jpn |
| キーワード |
|
|
主題Scheme |
Other |
|
主題 |
アクセラレータ計算 |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
| 著者所属 |
|
|
|
明治大学理工学部情報科学科 |
| 著者所属 |
|
|
|
明治大学理工学部情報科学科 |
| 著者所属 |
|
|
|
Argonne National Laboratory, Mathematics and Computer Science |
| 著者所属 |
|
|
|
明治大学理工学部情報科学科 |
| 著者所属(英) |
|
|
|
en |
|
|
Argonne National Laboratory, Mathematics and Computer Science |
| 著者名 |
松崎,竜之介
村上,魁
吉井,一友
椋木,大地
宮島,敬明
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
近年の計算機は演算性能が向上しているが、Byte/Flops値で表されるメモリ帯域と演算性能の比率は悪化し続けており、増大する電力性能も性能向上の阻害要因となっている。またマルチノード環境では演算に比べて非常に長いノード間通信がボトルネックになり、スケーラビリティを高めることが難しくなっている。Cerebras CS-3システム(CS-3)は、Wafer-Scale Engine 3 (WSE-3) を搭載したCerebras Systems社の最新世代のAIアクセラレータである。WSE-3は、約90万個のProcessing Element (PE) が2次元メッシュトポロジで接続され、各PEは7段パイプラインのインオーダー型プロセッサと48KBのローカルメモリで構成されている。本稿では、CS-3の大規模科学技術計算への適用可能性を理解するために、単精度浮動小数点行列積の性能評価を行なう。具体的には、SUMMAとCannonの2種類の分散並列行列積アルゴリズムについて、最大性能、強スケーリング、弱スケーリングと処理時間の内訳を示す。最大性能は、SUMMAで400.87 TFlops/s、Cannonで391.12 TFlops/sであった。サイクル数の内訳は、SUMMAで通信が53%、計算が35%、Cannonは通信が20%、計算が67%であった。弱スーリングの測定では、どちらも並列化効率が1.00であった。また、NVIDIA GH200システムでも強スケーリングの測定を行なった。 |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10463942 |
| 書誌情報 |
研究報告ハイパフォーマンスコンピューティング(HPC)
巻 2026-HPC-203,
号 18,
p. 1-8,
発行日 2026-03-09
|
| ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8841 |
| Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |