Item type |
SIG Technical Reports(1) |
公開日 |
2022-07-20 |
タイトル |
|
|
タイトル |
HPC環境を想定した探索的データ解析におけるノードローカルストレージの利用の検討 |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
グラウド・データ解析 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
筑波大学大学院理工情報生命学術院システム情報工学研究群情報理工学位プログラム |
著者所属 |
|
|
|
筑波大学大学院理工情報生命学術院システム情報工学研究群情報理工学位プログラム |
著者所属 |
|
|
|
筑波大学計算科学研究センター |
著者所属 |
|
|
|
筑波大学計算科学研究センター |
著者名 |
巨畠, 和樹
小山, 創平
平賀, 弘平
建部, 修見
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
ビッグデータから洗練された知識を抽出するにはデータの深い理解が不可欠である.データを加工し可視化することによって分析する探索的データ解析(EDA)では多くの試行がデータの深い理解を促す.そのため従来のシステムより多く試行できる高性能 EDA システムが求められる.本研究では HPC 環境を想定した EDA システムの構築を提案する.インタラクティブジョブと JupyterLab によるインタラクティブな実行環境を構築することで次の試行までの待ち時間を短縮する.また計算ノードで構成したアドホック並列分散ファイルシステム CHFS を活用することで試行あたりの実行時間を短縮する手法を提案する.提案手法では分散処理・並列計算ライブラリである Dask で CHFS を活用するためのインターフェースの設計と実装を行った.評価の結果,並列ファイルシステムからデータを読む場合と比較して最大 32% 実行時間が短縮されることを示した.またスケーラビリティの評価では 4 ノードの場合で並列化効率 88.2% を達成した. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10463942 |
書誌情報 |
研究報告ハイパフォーマンスコンピューティング(HPC)
巻 2022-HPC-185,
号 19,
p. 1-8,
発行日 2022-07-20
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8841 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |