@techreport{oai:ipsj.ixsq.nii.ac.jp:00227125, author = {大島, 聡史 and 伊田, 明弘 and 河合, 直聡 and 横田, 理央 and 山崎, 市太郎}, issue = {14}, month = {Jul}, note = {CPU や GPU の演算性能の向上に対してメモリ容量やメモリ速度の向上が遅れている今日,行列を近似して計算を行う近似行列計算法への注目が高まっている.我々は近似行列の一種であるブロック低ランク (Block Low Rank,BLR) 行列に対する QR 分解 (BLR-QR) に取り組んでいる.特に GPU を用いた高速な BLR-QR の実現を目指しており,既に過去の研究においてMulti-Instance GPU (MIG) を用いた BLR-QR の高速化に成功している.本稿ではその際に生じた幾つかの課題を解決するため,CUDA Fortran と MIG と Unified Virtual Memory (UVM) を用いた実装を行い,性能を評価した.その結果,Fortran90 プログラムに対して C/C++ および CUDA C を使わずに GPU 化を行うことができ,GPU に適しない小規模 なGPU カーネルであっても MIG により高性能を得ることが可能であり,UVM を使うことで GPU に収まらないメモリサイズでも容易に実行可能であることが確認できた.この実装(実行)方法は BLR-QR 以外のアプリケーションにとっても有用であることが期待される.}, title = {CUDA Fortran+MIG+UVMを用いたBLR行列QR分解の大規模高速化}, year = {2023} }