ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 研究報告
  2. ハイパフォーマンスコンピューティング(HPC)
  3. 2023
  4. 2023-HPC-188

FPGA高位合成における演算性能向上のための空間並列性記述に関する研究

https://ipsj.ixsq.nii.ac.jp/records/225166
https://ipsj.ixsq.nii.ac.jp/records/225166
4de86099-d607-4b8c-96ef-39e20aec1399
名前 / ファイル ライセンス アクション
IPSJ-HPC23188022.pdf IPSJ-HPC23188022.pdf (1.7 MB)
Copyright (c) 2023 by the Information Processing Society of Japan
オープンアクセス
Item type SIG Technical Reports(1)
公開日 2023-03-09
タイトル
タイトル FPGA高位合成における演算性能向上のための空間並列性記述に関する研究
言語
言語 jpn
キーワード
主題Scheme Other
主題 GPU・FPGA
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_18gh
資源タイプ technical report
著者所属
筑波大学情報理工学位プログラム
著者所属
筑波大学計算科学研究センター/筑波大学情報理工学位プログラム
著者所属
筑波大学計算科学研究センター/筑波大学情報理工学位プログラム
著者所属
筑波大学計算科学研究センター/筑波大学情報理工学位プログラム
著者所属
理化学研究所計算科学研究センター/筑波大学情報理工学位プログラム
著者名 佐野, 由佳

× 佐野, 由佳

佐野, 由佳

Search repository
小林, 諒平

× 小林, 諒平

小林, 諒平

Search repository
藤田, 典久

× 藤田, 典久

藤田, 典久

Search repository
朴, 泰祐

× 朴, 泰祐

朴, 泰祐

Search repository
佐藤, 三久

× 佐藤, 三久

佐藤, 三久

Search repository
論文抄録
内容記述タイプ Other
内容記述 今日の高性能計算システムでは,高い演算性能とメモリバンド幅を有する GPU (Graphic Processing Unit) が高性能計算向けアプリケーションの演算加速装置として積極的に導入されている.しかし,GPU による演算加速は,GPU が持つ数多くのコアを活用し,かつそれらが SIMD (Single Instruction Multiple Data) 的な均質な処理が行われた時に性能を発揮するように構築されているため,並列度の低い計算や条件分岐などの複雑な処理を必要とする演算,通信が頻発するアプリケーションではその演算性能を十全に発揮することはできない.そこで,その GPU にとって不適合な演算を,回路の再構成によってアプリケーションに特化した演算パイプラインやメモリシステムを柔軟に構築できる FPGA (Field-Programmable Gate Array) にオフロードする手法が注目を集めている.現在の GPU プログラミング環境では,OpenACC に代表される指示文によるユーザフレンドリーなプログラミング環境が存在するが,FPGA プログラミング環境では,指示文を利用したプログラミング環境の完成度は高いとは言えない.そのため,我々は理化学研究所計算科学研究センター (R-CCS) と筑波大学計算科学研究センター (CCS) との共同研究により,Omni OpenACC コンパイラを FPGA プログラミング環境向けに改良する研究を進めている.本研究では,コンパイラによる演算性能最適化の手法を検討する材料として,高位合成を用いた FPGA プログラミングの演算性能向上手法について評価・検討する.具体的には,OpenCL によって記述された CG (Conjugate Gradient) 法のコードに対し,パイプライン化,Loop Unrolling,複数カーネル同時実行等,演算要素数を増やすための各種手法を試す.そして,ループの Unroll 数,同時実行するカーネル数を変化させ,FLOPS 数と BRAM (Block Random Access Memory) の使用率を評価する.FPGA の高速化は基本的にパイプライン処理によって得られるが,このクロックサイクル内の演算数を増加させ,同時に BRAM 使用量への影響等を調べ,性能最適化のための方策を探る.ただし,FPGA では Loop Unrolling の深さや,使用演算器数,メモリ使用量によって動作周波数が変化し,それらの間に複雑なトレードオフが存在するため,一概に同時実行演算数を増やすことが性能向上に資するとは限らない.今回実装した Intel Stratix10 FPGA 上での CG 法のコードでは,1 つのカーネルで Loop Unrolling を 8 回行った場合に最も高性能になることが判明した.また,2 つのカーネルで Loop Unrolling を 8 回行った場合に,動作周波数との関係で性能が最高になったが,メモリ使用量が大きく増大してしまった.他アプリケーションとの同 FPGA 上への同時実装のためにはメモリ使用量を抑える必要があり,そういう場合は 2 つのカーネルで Loop Unrolling を 4 回行った場合が最も高性能になることがわかった.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AN10463942
書誌情報 研究報告ハイパフォーマンスコンピューティング(HPC)

巻 2023-HPC-188, 号 22, p. 1-10, 発行日 2023-03-09
ISSN
収録物識別子タイプ ISSN
収録物識別子 2188-8841
Notice
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-19 12:53:57.694838
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3