@techreport{oai:ipsj.ixsq.nii.ac.jp:00102911,
author = {正木拓也 and 笹川裕人 and 喜田拓也},
issue = {5},
month = {Sep},
note = {入力テキストを単語毎に符号化する End-Tagged Dense 符号 (ETDC) は,バイト単位の可変長符号を用いる,符号語の抽出が容易な検索向きのデータ圧縮法である.本稿では,単語毎に分かち書きされていないテキストに対して ETDC で符号化する手法を提案した.提案手法は,テキストに対して文法圧縮の一つである Re-Pair アルゴリズムを利用した分かち書きを行い,その後に ETDC で符号化を行う.その際,Re-Pair アルゴリズムの再帰処理において,後段の ETDC の符号化の効率を見積もる評価指標を導入し,その指標に基づいて再帰を打ち切る.それにより,日本語テキストやゲノムデータなどに対しても,検索や圧縮率の観点から効率よいデータ圧縮が実現できる.今回,実データに対して提案手法を適用することで,gzip や bzip2 に匹敵する圧縮率を達成できることを実証した., End-Tagged Dense Code (ETDC) is a word-based compression method that uses byte-oriented codewords. It is easy to extract codewords from compressed texts, and thus suitable for searching keywords on them. In this paper, we proposed a method for ETDC on texts which are not separated by spaces. In the proposed method, an input text is parsed by utilizing Re-Pair algorithm proposed by Larsson and Moffat, and then encoded by ETDC. We introduced a criterion that estimates the efficiency of ETDC in order to truncate the recursion of Re-Pair according to the criterion. This truncation realizes efficient data compression from the viewpoint of searching and compression ratio even for Japanese texts and gene data. In this time, we showed that our method achieved good compression ratios comparable with gzip and bzip2.},
title = {Dense符号化のための文法圧縮分割},
year = {2014}
}