Item type |
SIG Technical Reports(1) |
公開日 |
2024-09-23 |
タイトル |
|
|
タイトル |
深層学習アプリケーションを利用したAdvanced Matrix Extension(AMX)の性能評価 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Performance Evaluation of Advanced Matrix Extension (AMX) with Deep Learning Applications |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
スーパーコンピュータ・性能評価 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
京都大学大学院情報学研究科 |
著者所属 |
|
|
|
京都大学学術情報メディアセンター |
著者所属 |
|
|
|
京都大学学術情報メディアセンター |
著者所属(英) |
|
|
|
en |
|
|
Graduate School of Informatics, Kyoto University |
著者所属(英) |
|
|
|
en |
|
|
Academic Center for Computing and Media Studies, Kyoto University |
著者所属(英) |
|
|
|
en |
|
|
Academic Center for Computing and Media Studies, Kyoto University |
著者名 |
左高, 稜也
深沢, 圭一郎
岩下, 武史
|
著者名(英) |
Ryoya, Sataka
Keiichiro, Fukazawa
Takeshi, Iwashita
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
現在の ML(機械学習)/ AI(人工知能)計算環境では GPU の利用が主流となっている中,Intel 第 4 世代 Xeon 以降に搭載されている CPU 内アクセラレータである AMX (Advanced Matrix Extensions) ではデータの移動に関しての優位点があると考えられる.そこで,本研究では,ML のベンチマーク(Python コード)を利用し,AMX の性能評価を行った.更にメモリ構成による性能の違いを評価するために,第 4 世代 Xeon の AMX+HBM と AMX+DRAM 構成という 2 つの環境を利用し,評価を実施した.評価の結果,AMX を利用することで AVX-512 を利用した場合の 2 倍以上の性能を確認できた.また,適切なアフィニティ設定することにより,より高い性能が達成でき,2CPU で 1GPU(A100)と同等の性能になることが明らかになった.更に,大規模データセットを利用することで,AMX と A100 の性能差が縮小する傾向があることが分かった.これらの結果は,CPU での ML/AI 計算においても AMX を利用することで,GPU に近い性能を達成できる可能性を示唆している. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
In the current ML (Machine Learning) / AI (Artificial Intelligence) computing environments, the use of GPUs is mainstream. However, Intel's 4th Generation Xeon CPUs, which feature the Advanced Matrix Extensions (AMX) accelerator, may offer advantages in terms of data movement. In this study, we evaluated the performance of AMX using ML benchmarks (Python code). To assess the performance differences based on memory configurations, we conducted evaluations using two environments: AMX+HBM and AMX+DRAM on 4th Generation Xeon processors. The evaluation results showed that using AMX achieved more than twice the performance compared to using AVX-512. Additionally, we found that higher performance could be achieved with appropriate affinity settings, reaching performance equivalent to 1 GPU (A100) with 2 CPUs. Furthermore, the performance gap between AMX and A100 tended to narrow with the use of large-scale datasets. These findings suggest that it is possible to achieve performance close to that of GPUs by utilizing AMX in ML/AI computing on CPUs. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10463942 |
書誌情報 |
研究報告ハイパフォーマンスコンピューティング(HPC)
巻 2024-HPC-196,
号 3,
p. 1-6,
発行日 2024-09-23
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8841 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |