AVX2を用いた倍精度BCRS形式疎行列と倍々精度ベクトル積の高速化

菱沼, 利彰; 藤井, 昭宏; 田中, 輝雄; 長谷川, 秀彦; Toshiaki, Hishinuma; Akihiro, Fujii; Teruo, Tanaka; Hidehiko, Hasegawa

WEKO3

インデックスツリー

RootNode

アイテム

AVX2を用いた倍精度BCRS形式疎行列と倍々精度ベクトル積の高速化

https://ipsj.ixsq.nii.ac.jp/records/107509

名前 / ファイル	ライセンス	アクション
IPSJ-TACS0704004.pdf (1.1 MB)	Copyright (c) 2014 by the Information Processing Society of Japan
オープンアクセス

Item type

Trans(1)

公開日

2014-12-16

タイトル

AVX2を用いた倍精度BCRS形式疎行列と倍々精度ベクトル積の高速化

タイトル

言語

タイトル

AVX2 Acceleration of Double Precision Sparse Matrix in BCRS Format and DD Vector Product

言語

jpn

キーワード

主題Scheme

Other

主題

[高性能計算] SIMD，疎行列ベクトル積，疎行列の格納形式，高精度演算

資源タイプ

資源タイプ識別子

http://purl.org/coar/resource_type/c_6501

資源タイプ

journal article

著者所属

工学院大学情報学部

著者所属

工学院大学情報学部

著者所属

工学院大学情報学部

著者所属

筑波大学図書館情報メディア系

著者所属(英)

Faculty of Informatics, Kogakuin University

著者所属(英)

Faculty of Informatics, Kogakuin University

著者所属(英)

Faculty of Informatics, Kogakuin University

著者所属(英)

Faculty of Library, Information and Media Science, University of Tsukuba

著者名

菱沼, 利彰
藤井, 昭宏
田中, 輝雄
長谷川, 秀彦

著者名(英)

Toshiaki, Hishinuma
Akihiro, Fujii
Teruo, Tanaka
Hidehiko, Hasegawa

論文抄録

内容記述タイプ

Other

内容記述

高精度演算を用いることでKrylov部分空間法の収束を改善できるが，高精度演算はコストが高いことが知られている．高精度演算の1つに，倍精度を2つ組み合わせて4倍精度演算を行う倍々精度演算がある．我々は，IntelのSIMD拡張命令であるAVX2を用いてBCRS形式の倍精度疎行列と倍々精度ベクトルの積（DD-SpMV）の高速化を行った．AVX2を用いたCRS形式のDD-SpMVでは，各行で端数処理などを必要とするが，BCRS形式は端数処理をなくし，メモリアクセスを改善できる．しかし，BCRS形式は演算量が増加する．本論文では，AVX2に適したBCRS形式のブロックサイズと，増加した演算量と端数処理の削減，メモリアクセスの改善効果のトレードオフについて示した．実験の結果，AVX2に最も適したブロックサイズは4×1であることが分かった．また，メモリアクセスの改善効果はサイズの大きい問題ほど有効で，行列サイズが10 5以上のとき，演算量が3.3倍以上になるケースにおいても，BCRS4×1にすることでCRS形式の実行時間を約45%に短縮できることを確認した．

論文抄録(英)

内容記述タイプ

Other

内容記述

High precision arithmetic can improve the convergence of Krylov subspace methods; however, it is very costly. One system of high precision arithmetic is Double-Double arithmetic, which uses two double precision variables to implement one quadruple precision variable. We accelerated double sparse matrix in BCRS format and DD vector product (DD-SpMV) using AVX2. DD-SpMV in CRS format using AVX2 needs fraction processing each row. BCRS format which aligns the SIMD register's length can eliminate fraction processing and improve memory access. However, it may increase operations. In this paper, we have shown that trade-off between increased operations and eliminated fraction processing and improving memory access. In experimental results, we concluded that the best BCRS block size is BCRS4×1. The effect of improving memory access in BCRS format depends on matrix sizes. When matrix size is more than 10 5, the number of computations also increased to 3.3 times, and the elapsed time of DD-SpMV in BCRS4×1 can be about 45% of that in CRS format.

書誌レコードID

収録物識別子タイプ

NCID

収録物識別子

AA11833852

書誌情報

情報処理学会論文誌コンピューティングシステム（ACS）

巻 7, 号 4, p. 25-33, 発行日 2014-12-16

ISSN

収録物識別子タイプ

ISSN

収録物識別子

1882-7829

出版者

言語

出版者

情報処理学会

戻る

views

See details

	Views

Versions

Ver.1

2025-01-21 08:59:32.542281

Show All versions

Cite as

エクスポート

OAI-PMH

JPCOAR
DublinCore
DDI

Other Formats

JSON
BIBTEX

インデックスリンク

インデックスツリー

アイテム

AVX2を用いた倍精度BCRS形式疎行列と倍々精度ベクトル積の高速化

× 菱沼, 利彰

× 藤井, 昭宏

× 田中, 輝雄

× 長谷川, 秀彦

× Toshiaki, Hishinuma

× Akihiro, Fujii

× Teruo, Tanaka

× Hidehiko, Hasegawa

Versions

Share

Cite as

エクスポート