@techreport{oai:ipsj.ixsq.nii.ac.jp:00092453, author = {村田, 健史 and 渡邉, 英伸 and 山本, 和憲 and 久保田, 康文 and 建部, 修見 and 田中, 昌宏 and 深沢, 圭一郎 and 木村, 映善 and 鵜川, 健太郎 and 村永, 和哉 and 鈴木, 豊 and 磯田, 総子 and Ken, T.Murata and Hidenobu, Watanabe and Kazunori, Yamamoto and Yasubumi, Kubota and Osamu, Tatebe and Masahiro, Tanaka and Keiichiro, Fukazawa and Eizen, Kimura and Kentaro, Ukawa and Kazuya, Muranaga and Yutaka, Suzuki and Fusako, Isoda}, issue = {9}, month = {May}, note = {NICT サイエンスクラウドは,情報通信研究機構が科学研究目的のために構築したクラウドシステムであり,特にビッグデータサイエンスを主対象の一つとしている.10TB を超えるデータ処理 (例えば大規模可視化) や 100TB を超えるデータ検索 (たとえば特徴検出) などの大規模データ処理は,これからのデータ指向型科学研究では重要である.近年の CPU 処理速度の向上に伴いこれらのデータ処理は処理時間とデータ読み書き (I/O) 時間が同規模となることがある.そのため,レガシーな HPC 型数値計算環境ではなく I/O の高速化がなされているクラウド環境が有効となる.本稿では,NICT サイエンスクラウドにおいて分散ストレージシステム (Gfarm) と Gfarm のためのワークフローシステム (Pwrake) を用いた並列分散処理実験結果について報告する., For data intensive science on cloud systems, we need development of techniques for DIC (Data-Intensive Computing) as well as HTC (High-Through-put Computing), MTC (Many-Task Computing), and HPC (High-Performance Computing). The DIC is a new concept of large-scale data processing paying attentions to data distribution, data-parallel execution, and harnessing data locality by scheduling of computations close to the data. As the data file size is getting larger, I/O time to read and/or write data is not negligible compared with data processing time. We herein develop a DIC technique on a science cloud using Gfarm/Pwrak. The Gfarm/Pwrake has been developed as an integrated system of both distributed file system and parallel data processing system. With identifying file system nodes (FSN) and processing client node (CN) and giving higher priority to process files on the local disk than on remote disks, we succeeded in progress of total performance in processing large-scale data files.}, title = {Gfarm/PwrakeによるNICTサイエンスクラウドの並列分散処理技法}, year = {2013} }