@inproceedings{oai:ipsj.ixsq.nii.ac.jp:00176039,
 author = {吉村, 剛 and 千葉, 立寛 and 堀井, 洋 and 小野寺, 民也},
 book = {コンピュータシステム・シンポジウム論文集},
 month = {Nov},
 note = {Sparkの利用は商用の大規模データ解析やバッチ処理において急速に広まっており,最適化による計算資源利用の効率化は重要である.Sparkは特にシャッフル処理によるオーバヘッドが性能低下の原因と知られている.本研究では,シャッフル処理の最適化に向けて,バッファキャッシュ利用の重要性を示すことを目的とする.そのためにTPC-Hベンチマークのクエリ22種類の性能を分析し,特徴的なクエリをさらに掘り下げて分析をする.現状で得られている知見は,バッファキャッシュ利用率を上げるためにヒープ使用量をできるだけ削減することが重要であることがわかっている.特に,spillが発生してもバッファキャッシュ利用率を優先すべき場合もあることや,Spark/JVMのメモリがバッファキャッシュを圧迫して性能が低下する場合があることを確認している.},
 pages = {1--8},
 publisher = {情報処理学会},
 title = {バッファキャッシュを用いたSparkシャッフル処理の最適化に向けて},
 volume = {2016},
 year = {2016}
}