@techreport{oai:ipsj.ixsq.nii.ac.jp:02003148, author = {酒井,宏己 and 折原,冴保 and 下川辺,隆史 and 宮島,敬明}, issue = {11}, month = {Jul}, note = {近年のコンピュータは演算性能の向上が著しい一方で、Byte/Flops値に代表される演算性能に対するメモリ帯域幅の比率は悪化している。Cerebras CS-2は、深層学習における大規模言語モデルの学習ワークロードを高速化するために設計されたアクセラレータであり、世界最大のチップであるWafer Scale Engine-2を搭載している。格子ボルツマン法(Lattice Boltzmann Method, LBM)は、数値流体力学の分野で盛んに研究されてる計算手法の一つである。流体を微小な粒子の集まりとして近似し、各粒子の並進と衝突とを粒子の速度分布関数を用いて逐次計算することで、流体の大規模な動きを再現する。本研究では、複数PEを用いた実装に必須の、対角方向に隣接する格子点とのデータ転送を2ステップで行なう方法を提案する。また、1PEに1格子点を割り当て、境界格子を含む17×17格子を17×17PEで実行した場合の演算性能を測定した。この時の演算性能は695.1MFlops/sと29.5MULPSであった。}, title = {Cerebras CS-2における格子ボルツマン法の複数PE実装の検討}, year = {2025} }