WEKO3
アイテム
SAX - GTR:高速XMLストリーム読み込み手法
https://ipsj.ixsq.nii.ac.jp/records/19243
https://ipsj.ixsq.nii.ac.jp/records/19243b2804cf7-af80-496f-aadb-5372d8231c86
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2004 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2004-07-13 | |||||||
タイトル | ||||||||
タイトル | SAX - GTR:高速XMLストリーム読み込み手法 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | SAX - GTR : Fast Loading of XML Stream | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
東京都立大学大学院工学研究科 | ||||||||
著者所属 | ||||||||
東京都立大学大学院工学研究科 | ||||||||
著者所属 | ||||||||
東京都立大学大学院工学研究科 | ||||||||
著者所属 | ||||||||
東京都立大学大学院工学研究科 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Engineerong, Tokyo Metropolitan University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Engineerong, Tokyo Metropolitan University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Engineerong, Tokyo Metropolitan University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Engineerong, Tokyo Metropolitan University | ||||||||
著者名 |
横山, 昌平
太田, 学
片山, 薫
石川, 博
× 横山, 昌平 太田, 学 片山, 薫 石川, 博
|
|||||||
著者名(英) |
Shohei, Yokoyama
Manabu, Ohta
Kaoru, Katayama
Hiroshi, Ishikawa
× Shohei, Yokoyama Manabu, Ohta Kaoru, Katayama Hiroshi, Ishikawa
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | アプリケーションからXML文書を扱う仕組みは大きく分けて二つある.一つはDOMに代表されるXML木をメモリ上に展開するタイプの手法であり,もう一つはSAX等,XMLファイルを先頭からデータストリームとして読み込んでゆくタイプの手法である.前者は柔軟な処理を,後者は高速・低消費メモリを特徴としている.本論文では後者の手法に着目し,さらなる高速化に関する手法の提案を行う.具体的には,XML文書をその文書をSAXのイベントから成るストリーム単位に分解し二つのバイナリファイルに分解して保存する.一つのファイルにはイベント列の定義と走査するプログラムによって頻繁に利用される要素属性値が保存され,それ以外のデータはもう一つのファイルに保存する.前者のファイルはXMLファイルを走査するときに読み込まれ,前者はそこに保存された値が利用されるときに読み込まれる.この仕組みによりデータ走査時に読み込むデータの絶対量を削減する事ができ,より高速にXMLストリームを読み込むことができる.本稿ではこのバイナリファイルのフォーマットを説明する.またXMLデータを自動でバイナリ化し,ユーザが提案手法の知識がなくとも,SAXパーサを用いて透過的にアクセス手法を提案する.さらにSAXパーサより高速に動作することを実験により示す. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | There are two basic types of XML parser SAX and DOM. The SAX is a event driven XML parser that parses an XML input stream. The DOM is an in-memory tree representation of the XML document. Unlike SAX, DOM is a read-write API. Documents can be searched, queried, and updated via the DOM interface. This makes DOM much more effective when randomly accessing to XML documents. However, it is quite memory exhaustive compared with SAX because SAX doesn't have to store the entire document in memory. Therefore SAX is scalable from small to very large XML documents. The time taken to parse an XML document grows only linearly with the size of the document. In this paper, we propose an efficient framework for SAX applications called SAX-GTR that divides an XML document in two binary files; one is for the event stream and frequently-accessed data, the other is for non-frequently-accessed data. The division is decided automatically with a particular SAX event handler, without the structural and semantic information such as DTDs. The purpose of this division is to decrease the cost of loading. We also present a transparent access to SAX-GTR documents using SAX event handlers. The effectiveness of SAX-GTR is demonstrated by some experiments. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10112482 | |||||||
書誌情報 |
情報処理学会研究報告データベースシステム(DBS) 巻 2004, 号 71(2004-DBS-134), p. 213-220, 発行日 2004-07-13 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |