@techreport{oai:ipsj.ixsq.nii.ac.jp:00218957, author = {巨畠, 和樹 and 小山, 創平 and 平賀, 弘平 and 建部, 修見}, issue = {19}, month = {Jul}, note = {ビッグデータから洗練された知識を抽出するにはデータの深い理解が不可欠である.データを加工し可視化することによって分析する探索的データ解析(EDA)では多くの試行がデータの深い理解を促す.そのため従来のシステムより多く試行できる高性能 EDA システムが求められる.本研究では HPC 環境を想定した EDA システムの構築を提案する.インタラクティブジョブと JupyterLab によるインタラクティブな実行環境を構築することで次の試行までの待ち時間を短縮する.また計算ノードで構成したアドホック並列分散ファイルシステム CHFS を活用することで試行あたりの実行時間を短縮する手法を提案する.提案手法では分散処理・並列計算ライブラリである Dask で CHFS を活用するためのインターフェースの設計と実装を行った.評価の結果,並列ファイルシステムからデータを読む場合と比較して最大 32% 実行時間が短縮されることを示した.またスケーラビリティの評価では 4 ノードの場合で並列化効率 88.2% を達成した.}, title = {HPC環境を想定した探索的データ解析におけるノードローカルストレージの利用の検討}, year = {2022} }