WEKO3
アイテム
圧縮性に注目した文書の関係分析手法
https://ipsj.ixsq.nii.ac.jp/records/47895
https://ipsj.ixsq.nii.ac.jp/records/4789534b14cb0-e8d4-4ef7-ac8e-77025d3c569a
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2006 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2006-09-12 | |||||||
タイトル | ||||||||
タイトル | 圧縮性に注目した文書の関係分析手法 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Document Relation Analysis by Data Compression | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
電気通信大学大学院情報システム学研究科 | ||||||||
著者所属 | ||||||||
電気通信大学大学院情報システム学研究科 | ||||||||
著者所属 | ||||||||
電気通信大学大学院情報システム学研究科 | ||||||||
著者所属 | ||||||||
電気通信大学大学院情報システム学研究科 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Information Systems, University of Electro-Communications | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Information Systems, University of Electro-Communications | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Information Systems, University of Electro-Communications | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Information Systems, University of Electro-Communications | ||||||||
著者名 |
松崎, 大輔
× 松崎, 大輔
|
|||||||
著者名(英) |
Daisuke, MATSUZAKI
× Daisuke, MATSUZAKI
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 文書間の関係を分析する手法として,辞書ベースの形態素解析を用いて,語の出現頻度による類似性や,キーワード抽出を用いる方法が幅広く利用されている.これらの伝統的手法は,日々新しい単語が生まれるインターネットなどの環境には万全とはいえない.その理由は,これらの伝統的解析手法の前提となる,辞書に登録されていない未知語が頻繁に出現するためである.本稿では文書の圧縮率に注目し,人手による解析辞書の事前整備が不要な,文書の関係分析手法を提案する.提案手法について実験を行いその有効性を検討する.キーワード 文書分析,クラスタリング,データ圧縮 | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | Dictionary-based morphological analysis is one of the main techniques for document analysis. It is usually used for keyword extraction and classification of similar words. Dictionary-based methods are weak for such environment as the Internet where new words appear that are not contained in the dictionary. In this study, we propose a new document relation analysis method based on the document’s compressibility, requiring no dictionary. The effectiveness of our method is examined through some experiments. Key words Document analysis, Clustering, Data compression | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10115061 | |||||||
書誌情報 |
情報処理学会研究報告自然言語処理(NL) 巻 2006, 号 94(2006-NL-175), p. 51-56, 発行日 2006-09-12 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |