@techreport{oai:ipsj.ixsq.nii.ac.jp:00040118, author = {松崎, 大輔 and 渡辺, 俊典 and 古賀, 久志 and 張諾 and Daisuke, MATSUZAKI and Toshinori, WATANABE and Hisashi, KOGA and Nuo, ZHANG}, issue = {94(2006-FI-084)}, month = {Sep}, note = {文書間の関係を分析する手法として,辞書ベースの形態素解析を用いて,語の出現頻度による類似性や,キーワード抽出を用いる方法が幅広く利用されている.これらの伝統的手法は,日々新しい単語が生まれるインターネットなどの環境には万全とはいえない.その理由は,これらの伝統的解析手法の前提となる,辞書に登録されていない未知語が頻繁に出現するためである.本稿では文書の圧縮率に注目し,人手による解析辞書の事前整備が不要な,文書の関係分析手法を提案する.提案手法について実験を行いその有効性を検討する.キーワード 文書分析,クラスタリング,データ圧縮, Dictionary-based morphological analysis is one of the main techniques for document analysis. It is usually used for keyword extraction and classification of similar words. Dictionary-based methods are weak for such environment as the Internet where new words appear that are not contained in the dictionary. In this study, we propose a new document relation analysis method based on the document’s compressibility, requiring no dictionary. The effectiveness of our method is examined through some experiments. Key words  Document analysis, Clustering, Data compression}, title = {圧縮性に注目した文書の関係分析手法}, year = {2006} }