@techreport{oai:ipsj.ixsq.nii.ac.jp:00203863, author = {大友, 広幸 and 横田, 理央}, issue = {20}, month = {Mar}, note = {近年盛んに研究が行われている深層学習では行列積計算が多く行われ,行列積専用のプロセッサや行列積計算ユニットを持つプロセッサの開発が多く行われている.NVIDIA は Volta アーキテクチャより混合精度行列積計算回路である Tensor コアを GPU に搭載し,その理論性能は 100TFlop/s 以上に達する.Tensor コアを用いるための WMMA(Warp Matrix Multiply Accumulate)API ではメモリ上にある行列データを fragment と呼ばれるレジスタにコピーし Tensor コアに入力する.しかし WMMA API で提供されている関数は機能が限られており,利用目的によっては冗長なメモリアクセスを行うこととなる.そこで本研究では fragment の構造解析を通して WMMA API を用いた場合と比較し高速かつ省メモリに Tensor コアを用いるための拡張ライブラリの開発を行った.}, title = {TensorコアのAPIの構造解析を用いた拡張ライブラリの開発}, year = {2020} }