Item type |
Trans(1) |
公開日 |
2015-09-30 |
タイトル |
|
|
タイトル |
適切なクエリ処理エンジンを自動選択するマルチデータベースシステム |
タイトル |
|
|
言語 |
en |
|
タイトル |
A Multidatabase System with Efficient Selection of Query Engines |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
[研究論文] マルチデータベースシステム,仮想スキーマ,クエリ分割実行,クエリ処理エンジン,Hadoop |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_6501 |
|
資源タイプ |
journal article |
著者所属 |
|
|
|
株式会社KDDI研究所 |
著者所属 |
|
|
|
株式会社KDDI研究所 |
著者所属 |
|
|
|
株式会社KDDI研究所 |
著者所属 |
|
|
|
株式会社KDDI研究所 |
著者所属(英) |
|
|
|
en |
|
|
KDDI R&D Laboratories Inc. |
著者所属(英) |
|
|
|
en |
|
|
KDDI R&D Laboratories Inc. |
著者所属(英) |
|
|
|
en |
|
|
KDDI R&D Laboratories Inc. |
著者所属(英) |
|
|
|
en |
|
|
KDDI R&D Laboratories Inc. |
著者名 |
齋藤, 和広
渡辺, 泰之
村松, 茂樹
小林, 亜令
|
著者名(英) |
Kazuhiro, Saito
Yasuyuki, Watanabe
Shigeki, Muramatsu
Arei, Kobayashi
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
近年,共有ストレージ上の同一データに対して異なる特徴を持つ複数のクエリ処理エンジン(QE)が利用可能な環境が開発されている.代表例がHadoopとそのエコシステムである.従来のマルチデータベースシステムは,このような同一データを持つ複数のQEを自動的に選択することができない.そのため,使い分けによりユーザの負荷が増加し,さらにはユーザの不適切な選択により,大幅な遅延やシステムクラッシュ等の問題が発生する.そこで本論文では,同一データを持つ複数のQEから,適切なQEを自動選択するマルチデータベースシステムを提案する.提案システムは,同一データを持つ複数のQEを単一のデータソースとしてユーザが認識可能な仮想スキーマを提供することで,適切なQEの自動選択を可能とする.さらに,クエリ内のオペレータ単位で適切なQEを選択実行するクエリ分割実行方式を備えることを特徴とする.共有ストレージとしてHadoop HDFS,QEとしてSQL-on-HadoopのHiveとImpalaおよび全文検索エンジンのSolrを対象としたプロトタイプを実装した.HiveとImpalaに対してTPC-Hベンチマークを用いて評価した結果,Impala単体で実行が失敗するクエリに対しても,適切なQEを自動選択することで実行可能とし,さらに分割実行によりHive単体と比較して最大2.5倍高速化できることを確認した.またSolrとSQL-on-Hadoopの組合せでTwitterデータを用いて評価した結果,テキスト検索においてSolrを活用することで,SQL-on-Hadoop単体と比較して最大9.4倍高速化し,またデータサイズが大きくなることでより高速化することを確認した. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
Recently, new architecture of the data source has been developed, which can use multiple query engines on a shared storage. These query engines share same data, but have different characteristics each other. It includes the Hadoop and its eco-systems as a typical example. However, a multidatabase system cannot automatically select a QE to post a query to these QEs sharing same data. As a result, the users must use different QEs in spite of a logical single database system. This leads additional burdens of users. And in worst case, it occurs a problem that it leads system crash by the inappropriate selection of a QE. In this paper, we propose a multidatabase system which can automatically select an appropriate QE from these QEs sharing same data. The proposal system provides a virtual schema for users to recognize multiple QEs sharing same data as a single data source. When users execute a query to this virtual schema, the proposal system selects an appropriate QE automatically. Furthermore, the proposal system also provides split query execution method which select an appropriate QE for each operator of user query. We implemented the prototype system to evaluate the proposal system targeting Hadoop HDFS as a shared storage and two SQL-on-Hadoop QEs (Hive and Impala) and a full-text search engine Solr as multiple QEs sharing same data. In the result of evaluation for Hive and Impala by this prototype system using TPC-H benchmark, its efficient selection of query engines achieved to execute a query that Impala fails to execute, and we observed 2.5 times higher performance at a maximum than Hive only execution by its split query execution. Furthermore, in the result of evaluation for SQL-on-Hadoop and Solr by this prototype system using twitter data, we observed 9.4 times higher performance at a maximum than SQL-on-Hadoop only execution by using Solr at text search operator. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AA11464847 |
書誌情報 |
情報処理学会論文誌データベース(TOD)
巻 8,
号 3,
p. 24-39,
発行日 2015-09-30
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
1882-7799 |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |