WEKO3
アイテム
圧縮性に注目した文書の関係分析手法
https://ipsj.ixsq.nii.ac.jp/records/40118
https://ipsj.ixsq.nii.ac.jp/records/401181f05c8df-53a1-42e9-903b-5a70293fcec2
| 名前 / ファイル | ライセンス | アクション |
|---|---|---|
|
|
Copyright (c) 2006 by the Information Processing Society of Japan
|
|
| オープンアクセス | ||
| Item type | SIG Technical Reports(1) | |||||||
|---|---|---|---|---|---|---|---|---|
| 公開日 | 2006-09-12 | |||||||
| タイトル | ||||||||
| タイトル | 圧縮性に注目した文書の関係分析手法 | |||||||
| タイトル | ||||||||
| 言語 | en | |||||||
| タイトル | Document Relation Analysis by Data Compression | |||||||
| 言語 | ||||||||
| 言語 | jpn | |||||||
| 資源タイプ | ||||||||
| 資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
| 資源タイプ | technical report | |||||||
| 著者所属 | ||||||||
| 電気通信大学大学院情報システム学研究科 | ||||||||
| 著者所属 | ||||||||
| 電気通信大学大学院情報システム学研究科 | ||||||||
| 著者所属 | ||||||||
| 電気通信大学大学院情報システム学研究科 | ||||||||
| 著者所属 | ||||||||
| 電気通信大学大学院情報システム学研究科 | ||||||||
| 著者所属(英) | ||||||||
| en | ||||||||
| Graduate School of Information Systems, University of Electro-Communications | ||||||||
| 著者所属(英) | ||||||||
| en | ||||||||
| Graduate School of Information Systems, University of Electro-Communications | ||||||||
| 著者所属(英) | ||||||||
| en | ||||||||
| Graduate School of Information Systems, University of Electro-Communications | ||||||||
| 著者所属(英) | ||||||||
| en | ||||||||
| Graduate School of Information Systems, University of Electro-Communications | ||||||||
| 著者名 |
松崎, 大輔
渡辺, 俊典
古賀, 久志
張諾
× 松崎, 大輔 渡辺, 俊典 古賀, 久志 張諾
|
|||||||
| 著者名(英) |
Daisuke, MATSUZAKI
Toshinori, WATANABE
Hisashi, KOGA
Nuo, ZHANG
× Daisuke, MATSUZAKI Toshinori, WATANABE Hisashi, KOGA Nuo, ZHANG
|
|||||||
| 論文抄録 | ||||||||
| 内容記述タイプ | Other | |||||||
| 内容記述 | 文書間の関係を分析する手法として,辞書ベースの形態素解析を用いて,語の出現頻度による類似性や,キーワード抽出を用いる方法が幅広く利用されている.これらの伝統的手法は,日々新しい単語が生まれるインターネットなどの環境には万全とはいえない.その理由は,これらの伝統的解析手法の前提となる,辞書に登録されていない未知語が頻繁に出現するためである.本稿では文書の圧縮率に注目し,人手による解析辞書の事前整備が不要な,文書の関係分析手法を提案する.提案手法について実験を行いその有効性を検討する.キーワード 文書分析,クラスタリング,データ圧縮 | |||||||
| 論文抄録(英) | ||||||||
| 内容記述タイプ | Other | |||||||
| 内容記述 | Dictionary-based morphological analysis is one of the main techniques for document analysis. It is usually used for keyword extraction and classification of similar words. Dictionary-based methods are weak for such environment as the Internet where new words appear that are not contained in the dictionary. In this study, we propose a new document relation analysis method based on the document’s compressibility, requiring no dictionary. The effectiveness of our method is examined through some experiments. Key words Document analysis, Clustering, Data compression | |||||||
| 書誌レコードID | ||||||||
| 収録物識別子タイプ | NCID | |||||||
| 収録物識別子 | AN10114171 | |||||||
| 書誌情報 |
情報処理学会研究報告情報学基礎(FI) 巻 2006, 号 94(2006-FI-084), p. 51-56, 発行日 2006-09-12 |
|||||||
| Notice | ||||||||
| SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
| 出版者 | ||||||||
| 言語 | ja | |||||||
| 出版者 | 情報処理学会 | |||||||