Item type |
SIG Technical Reports(1) |
公開日 |
2021-11-24 |
タイトル |
|
|
タイトル |
並列演算を効率化する組込みシステム向けデータ整形機構 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Data Rearrange Unit for Efficient Parallel Data Computation in Embedded System |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
設計技術 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
慶應義塾大学大学院 |
著者所属 |
|
|
|
慶應義塾大学大学院 |
著者名 |
間宮, 暉之
山﨑, 信行
|
著者名(英) |
Akiyuki, Mamiya
Nobuyuki, Yamasaki
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
近年,AI 等の膨大な演算量のアプリケーションでは,演算に必要なデータが非連続なメモリアドレスに配置されている場合が多い.これらのアプリケーションでは,通常のメモリアクセスで効果的に必要なデータのみにアクセスすることが困難であり,演算当たりのメモリアクセス回数が増える.演算性能を向上させるために単純に演算器の数のみを増やすというアプローチをとると,演算密度の低い無駄の多い演算の回数が増加する.消費電力の観点から演算効率がより重要視される組込みシステムにおいては,この問題は大きな課題となる.この問題に対処するために本論文では,演算に必要なデータを転送しつつ演算器が演算しやすいように並び替えを行うデータ整形機構 (DRU: Data Rearrangement Unit) を提案する.演算器が演算しやすいように DRU がデータを転送しながら整形することで,メモリアクセス回数を減らしつつ演算密度を向上させることができ,従来手法と比較して非常に高効率な並列演算を可能とする.本論文では,RMTP SoC [1][2] 上に DRU を設計・実装し,畳み込み演算のスループットを約 13% の面積増加で最大で 94 倍まで向上させることに成功した. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
Recently demands for computation intensive applications such as convolutional neural networks (CNNs) have been increasing. In these applications, valid data for computation are allocated in noncontinuous addresses. Therefore, common burst memory access pattern results in a low spatial locality of valid data for computation per access. As a result, just increasing the number of data parallel execution units does not greatly improve in throughput, as computation resource is wasted by computing invalid data. This is especially a problem in embedded systems in which constraints in power consumption provoke a requirement for high computation efficiency. In this paper, we introduce a Data Rearrange Unit (DRU), a hardware unit rearranging computation data to increase spatial locality of valid data. The DRU drastically reduces the main memory access rate and increases computation efficiency by decreasing memory access to reduce power consumption. We demonstrate the effectiveness of our DRU by implementation on the RMTP SoC[1][2] improving convolution throughput on a data parallel execution unit by a maximum of 94times, while only increasing the total cell area by about 13%. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AA11451459 |
書誌情報 |
研究報告システムとLSIの設計技術(SLDM)
巻 2021-SLDM-196,
号 12,
p. 1-6,
発行日 2021-11-24
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8639 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |