ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 論文誌(トランザクション)
  2. プログラミング(PRO)
  3. Vol.11
  4. No.2

深層学習フレームワークにおけるCPUとGPUの性能解析および最適化

https://ipsj.ixsq.nii.ac.jp/records/190290
https://ipsj.ixsq.nii.ac.jp/records/190290
2ea4da40-5d04-428d-a230-c2397f792036
名前 / ファイル ライセンス アクション
IPSJ-TPRO1102013.pdf IPSJ-TPRO1102013.pdf (182.4 kB)
Copyright (c) 2018 by the Information Processing Society of Japan
オープンアクセス
Item type Trans(1)
公開日 2018-06-26
タイトル
タイトル 深層学習フレームワークにおけるCPUとGPUの性能解析および最適化
タイトル
言語 en
タイトル Performance Analysis and Optimization of CPU and GPU in Deep Learning Framework
言語
言語 jpn
キーワード
主題Scheme Other
主題 [発表概要]
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_6501
資源タイプ journal article
著者所属
東京大学工学部電子情報工学科
著者所属
東京大学工学部電子情報工学科
著者所属(英)
en
Department of Information and Communication Engineering, The University of Tokyo
著者所属(英)
en
Department of Information and Communication Engineering, The University of Tokyo
著者名 樋口, 兼一

× 樋口, 兼一

樋口, 兼一

Search repository
田浦, 健次朗

× 田浦, 健次朗

田浦, 健次朗

Search repository
著者名(英) Tomokazu, Higuchi

× Tomokazu, Higuchi

en Tomokazu, Higuchi

Search repository
Kenjiro, Taura

× Kenjiro, Taura

en Kenjiro, Taura

Search repository
論文抄録
内容記述タイプ Other
内容記述 今日では深層ニューラルネットワーク技術がAI分野に大きく貢献している.その学習プロセスは非常に時間がかかるため,計算環境に合わせた最適化が必要である.この発表では計算環境としてCPUとGPUを考え両者間の深層学習性能を比較する.広く使われている大半の深層学習フレームワークではGPU用の最適化は十分に行われているが,CPU用の最適化は積極的に行われていない.そのようなフレームワークの1つであるChainerも同様であり,内部の関数はCPU向けには十分に最適化されていないといえる.たとえばGPU上で走るほぼすべての関数はcuDNNやCuPyといった深層学習に特化したライブラリを用いて高速化されているが,CPU上で走る部分はNumPyでしか高速化されていない.NumPyは汎用的な科学計算ライブラリであるために,深層学習のような特殊な用途では十分にCPUを活用できているとはいえず,元のChainerを使った性能比較ではCPUとGPU間のプロセッサレベルの差を反映できない.そこで正確な性能差を得るために,CPU上で走る関数内のNumPyで記述された部分をC言語で書き換えてOpenMPとIntel MKLで高速化を行った.その結果として得られる計測結果を用いて,CPUとGPUの深層学習における性能差とその特性を詳細に示す.
論文抄録(英)
内容記述タイプ Other
内容記述 Nowadays, deep neural network technology has made a significant contribution to AI field. Its learning process is very time-consuming and needs to be optimized for a computing environment. In this work, we will show a compare of deep learning performance between CPUs and GPUs. Major deep learning frameworks are fully optimized for GPU, but not for CPU. Specifically, Chainer, a widely-used deep learning framework, does not use CPU-specialized kernels for deep learning. Almost all kernels performing well on GPU are optimized with cuDNN and CuPy, libraries specialized for deep learning. In contrast to that, kernels running on CPU are optimized only with NumPy. NumPy, general scientific computing library, is difficult to get high performance in deep learning. So the performance comparison between CPUs and GPUs with the original Chainer implementation does not reflect the performance difference of the processors. To deal with this problem, we rewrite existing kernels running on CPU with C language and optimize them with OpenMP and Intel MKL. We analyze the performance with detailed profiling and discuss characteristics of performance.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AA11464814
書誌情報 情報処理学会論文誌プログラミング(PRO)

巻 11, 号 2, p. 29-29, 発行日 2018-06-26
ISSN
収録物識別子タイプ ISSN
収録物識別子 1882-7802
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-20 01:16:56.593800
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3