@techreport{oai:ipsj.ixsq.nii.ac.jp:00233160, author = {松崎, 竜之介 and 福岡, 伶音 and 宮島, 敬明}, issue = {18}, month = {Mar}, note = {近年の計算機は演算性能が向上しているが,Byte/Flops 値で表されるメモリ帯域と演算性能の比率は悪化し続けており,増大する消費電力も性能向上の阻害要因となっている.また,マルチノード環境では演算に比べて非常に長いノード間通信がボトルネックになり,スケーリングが問題となっている.Cerebras CS-2 システムは,世界最大のチップ Wafer Scale Engine-2 (WSE-2) を搭載する深層学習向けおよび高性能計算のためのアクセラレータである.WSE-2 は 2 次元メッシュトポロジで接続された,745,500 個の計算コアの分散メモリシステムと考えられる.本稿では,CS-2 の大規模科学技術計算への適用可能性を理解するために,単精度浮動小数点 GEMM (SGEMM) の性能評価と性能モデルの作成を試みた.性能評価として,最大性能,強スケーリング,弱スケーリングの 3 つの項目の測定と,処理時間の内訳を述べる.最大性能は行列サイズ M=35K の際に 0.34PFlops/s,弱スケーリングの並列化効率は 1.00 となった.}, title = {Cerebras CS-2におけるGEMMの性能評価}, year = {2024} }