@techreport{oai:ipsj.ixsq.nii.ac.jp:02007935,
 author = {松崎,竜之介 and 村上,魁 and 吉井,一友 and 椋木,大地 and 宮島,敬明},
 issue = {18},
 month = {Mar},
 note = {近年の計算機は演算性能が向上しているが、Byte/Flops値で表されるメモリ帯域と演算性能の比率は悪化し続けており、増大する電力性能も性能向上の阻害要因となっている。またマルチノード環境では演算に比べて非常に長いノード間通信がボトルネックになり、スケーラビリティを高めることが難しくなっている。Cerebras CS-3システム（CS-3）は、Wafer-Scale Engine 3 (WSE-3) を搭載したCerebras Systems社の最新世代のAIアクセラレータである。WSE-3は、約90万個のProcessing Element (PE) が2次元メッシュトポロジで接続され、各PEは7段パイプラインのインオーダー型プロセッサと48KBのローカルメモリで構成されている。本稿では、CS-3の大規模科学技術計算への適用可能性を理解するために、単精度浮動小数点行列積の性能評価を行なう。具体的には、SUMMAとCannonの2種類の分散並列行列積アルゴリズムについて、最大性能、強スケーリング、弱スケーリングと処理時間の内訳を示す。最大性能は、SUMMAで400.87 TFlops/s、Cannonで391.12 TFlops/sであった。サイクル数の内訳は、SUMMAで通信が53%、計算が35%、Cannonは通信が20%、計算が67%であった。弱スーリングの測定では、どちらも並列化効率が1.00であった。また、NVIDIA GH200システムでも強スケーリングの測定を行なった。},
 title = {Cerebras CS-3における密行列積アルゴリズムの性能比較},
 year = {2026}
}