WEKO3
アイテム
広域分散ファイルシステムGfarm上でのMapReduceを用いた大規模分散データ処理
https://ipsj.ixsq.nii.ac.jp/records/69963
https://ipsj.ixsq.nii.ac.jp/records/6996355e0c7ce-f22a-4e3e-ad15-198124f1263c
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2010 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2010-07-27 | |||||||
タイトル | ||||||||
タイトル | 広域分散ファイルシステムGfarm上でのMapReduceを用いた大規模分散データ処理 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Data Intensive distributed computing using MapReduce on Gfarm file system | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | 大規模データ処理とスケジューリング | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
筑波大学 | ||||||||
著者所属 | ||||||||
Preferred Infrastructure, Inc. | ||||||||
著者所属 | ||||||||
筑波大学 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
University of Tsukuba | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Preferred Infrastructure, Inc. | ||||||||
著者所属(英) | ||||||||
en | ||||||||
University of Tsukuba | ||||||||
著者名 |
三上, 俊輔
× 三上, 俊輔
|
|||||||
著者名(英) |
Shunsuke, Mikami
× Shunsuke, Mikami
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | MapReduce のための分散ファイルシステムとして Google File System や HDFS (Hadoop Distributed File System) が使われているが,それらのファイルシステムは特定 API によるストリーミングアクセスを前提とし,POSIX の要件を緩和している.このため MapReduce 以外のプログラムからそれらのファイルシステムを直接使用することが困難であり,MapReduce 処理をするためにそれらのファイルシステムにインポートして,他のプログラムで利用するために結果をエクスポートするなど,コピーが必要なことが多い.この問題を解決するために本研究では HDFS の代わりに POSIX 準拠の API を持った広域分散ファイルシステム Gfarm を使うことを提案し,Gfarm 上で MapReduce 処理を可能にするための Hadoop-Gfarm プラグインを設計し評価する.マイクロベンチマークにおいて,Gfarm は HDFS より約 30% 高い書き込み性能を示し,読み込みはほぼ同程度の性能であった.また,grep,sort などの単純な MapReduce アプリケーションにおいて Gfarm と HDFS は同程度の性能であった.提案手法を使えば性能を低下させることなく,POSIX 準拠の API を使え,無駄なデータの移動やコピーを減らすことができる. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | Distributed filesystems that have been designed to use MapReduce, such as Google file system and HDFS (Hadoop Distributed File System), suppose streaming access and they relax a couple of POSIX requirements. This makes it difficult for programs other than MapReduce to access these filesystems. It is often need to import files to these file system for MapReduce and export for other programs. In order to solve this problem, we are proposing using Gfarm, a globally distributed file system, to bridge the gap. We designed and implemented Hadoop-Gfarm plugin to allow Hadoop MapReduce applications access to the files stored on the Gfarm file system. Micro benchmarks show that 30% higher performance than HDFS in write throughput, and similar performance in read throughput. The grep and sort applications show similar performance. Overall using the Gfarm file system in place of HDFS allows users to use a POSIX-compliant API and reduces redundant copy without sacrificing performance. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10463942 | |||||||
書誌情報 |
研究報告ハイパフォーマンスコンピューティング(HPC) 巻 2010-HPC-126, 号 4, p. 1-7, 発行日 2010-07-27 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |