Item type |
SIG Technical Reports(1) |
公開日 |
2015-12-09 |
タイトル |
タイトル |
Xeon PhiにおけるDSYRKのスレッド並列化手法 |
タイトル |
言語 |
en |
タイトル |
Static and Dynamic Scheduling Methods for DSYRK on Xeon Phi Coprocessor |
言語 |
言語 |
jpn |
キーワード |
主題Scheme |
Other |
主題 |
アクセラレータ |
資源タイプ |
資源タイプ識別子 | |
資源タイプ |
technical report |
著者所属 |
電気通信大学 |
著者所属 |
電気通信大学/JST CREST |
著者名 |
工藤, 周平
山本, 有作
著者名(英) |
Shuhei, Kudo
Yusaku, Yamamoto
論文抄録 |
内容記述タイプ |
Other |
内容記述 |
BLAS は行列積などの基本的な行列計算を行う計算ライブラリである.近年,Xeon Phi などの多数のコアを持つ高速な CPU が現れており,このようなアーキテクチャに対する BLAS の実装手法が重要となっている.本発表では,BLAS の中でも DSYRK の並列化手法について議論する.DSYRK は結果が対称行列となるような行列積であり,上(下) 三角部分のみを計算する.そのため,計算時間が均等になるよう計算領域を分割することは容易ではない.そこで,並列化可能な 3 つの軸すべてを並列化に使う動的分割法と,1 つまたは 2 つのみを使う静的分割法の 2 種類の手法を示し,それぞれを用いたときの実行性能を示す. |
論文抄録(英) |
内容記述タイプ |
Other |
内容記述 |
BLAS is a basic linear algebra library which includes matrix multiplication subroutines. Recently, it becomes a problem how to optimize BLAS for manycore architecture like Xeon Phi which consists of large number of cores. In this talk, we introduce multithreading methods for DSYRK. DSYRK is a subroutine of BLAS peforms matrix multiplication results a self-adojoint matrix, thus it can reduce the half of computations by skipping the upper/lower trianguler part. On the other hands, it's not easy to get best work-balance by parallelizing this triangular area. We developed two types of methods, one is a dynamic scheduling method which parallelizes all the three outer loops of the blocked matrix multiplication, and another one is a static scheduling method which parallelizes one or two of theme. Then we show the performance results of those methods on Xeon Phi. |
書誌レコードID |
収録物識別子タイプ |
収録物識別子 |
AN10463942 |
書誌情報 |
巻 2015-HPC-152,
号 17,
p. 1-8,
発行日 2015-12-09
収録物識別子タイプ |
収録物識別子 |
2188-8841 |
Notice |
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
言語 |
ja |
出版者 |
情報処理学会 |