Tensorコアを用いた単精度行列積エミュレーションのアプリケーションでの評価

大友, 広幸; 横田, 理央

WEKO3

lat lon distance

[[sub_check.contents]]

[[sub_radio.contents]]

Field does not validate

[[sub_attr.contents]]　

インデックスツリー

アイテム

Tensorコアを用いた単精度行列積エミュレーションのアプリケーションでの評価

https://ipsj.ixsq.nii.ac.jp/records/218947

名前 / ファイル	ライセンス	アクション
IPSJ-HPC22185009.pdf (1.3 MB)	Copyright (c) 2022 by the Information Processing Society of Japan
オープンアクセス

Item type

SIG Technical Reports(1)

公開日

2022-07-20

タイトル

Tensorコアを用いた単精度行列積エミュレーションのアプリケーションでの評価

言語

jpn

キーワード

主題Scheme

Other

主題

行列演算

資源タイプ

資源タイプ識別子

http://purl.org/coar/resource_type/c_18gh

資源タイプ

technical report

著者所属

東京工業大学

著者所属

東京工業大学

著者名

大友, 広幸
横田, 理央

論文抄録

内容記述タイプ

Other

内容記述

混合精度行列積和演算回路である NVIDIA Tensor コアは FP16 や TF32 といった低精度変数を入力とし，行列積和計算内部の各要素の乗算及び加算を単精度等の高精度で行う．Tensor コアを用いて単精度行列積を行う場合，入力行列を低精度へ変換する必要があり，最終的な計算精度が劣化する．この計算精度の劣化を Tensor コアの特長を利用し補正し，単精度行列積を高速にエミュレートする手法が考案されている．指数部長が FP32 と同じ 8bit である TF32 を入力とする Tensor コアを用いた場合，計算精度及び入力行列の指数部範囲のともに単精度行列積をエミュレートすることが可能である一方，指数部長の小さい FP16 を入力とする Tensor コアを用いた単精度行列積エミュレーションでは対応可能な指数部範囲が限定される．一方で FP16 Tensor コアは TF32 Tensor コアより高い計算性能を持ち，精度補正計算において計算可能な指数部範囲と計算性能の間にトレードオフが存在する．本研究では cuBLAS の単精度行列積関数の関数呼び出しを乗っ取り，代わりに Tensor コアを用いた単精度積エミュレーションを実行するライブラリを開発し，精度補正の有無や内部で使用する Tensor コアの入力の型を変えた場合の計算精度の評価を行った．このライブラリを用いて PyTorch 及び CuPy の単精度行列積を乗っ取り，深層学習及び量子計算機シミュレーションを評価対象とした．

書誌レコードID

収録物識別子タイプ

NCID

収録物識別子

AN10463942

書誌情報

研究報告ハイパフォーマンスコンピューティング（HPC）

巻 2022-HPC-185, 号 9, p. 1-8, 発行日 2022-07-20

ISSN

収録物識別子タイプ

ISSN

収録物識別子

2188-8841

Notice

SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.

出版者

言語

出版者

情報処理学会

戻る

views

See details

	Views

Versions

Ver.1

2025-01-19 14:58:45.582210

Show All versions

Cite as

エクスポート

OAI-PMH

JPCOAR
DublinCore
DDI

Other Formats

JSON
BIBTEX

インデックスリンク

インデックスツリー

アイテム

Tensorコアを用いた単精度行列積エミュレーションのアプリケーションでの評価

× 大友, 広幸

× 横田, 理央

Versions

Share

Cite as

エクスポート