WEKO3
アイテム
コサイン類似度に基づく分割型と凝集型ハイブリッド文書クラスタリング法の改良および定量評価
https://ipsj.ixsq.nii.ac.jp/records/238522
https://ipsj.ixsq.nii.ac.jp/records/238522626898cd-e781-4864-bf4c-8c4207737e57
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]()
2026年8月29日からダウンロード可能です。
|
Copyright (c) 2024 by the Information Processing Society of Japan
|
|
非会員:¥660, IPSJ:学会員:¥330, MPS:会員:¥0, DLIB:会員:¥0 |
Item type | SIG Technical Reports(1) | |||||||||
---|---|---|---|---|---|---|---|---|---|---|
公開日 | 2024-08-29 | |||||||||
タイトル | ||||||||||
タイトル | コサイン類似度に基づく分割型と凝集型ハイブリッド文書クラスタリング法の改良および定量評価 | |||||||||
タイトル | ||||||||||
言語 | en | |||||||||
タイトル | Improvement and Quantitative Evaluation of Divisive and Agglomerative Hybrid Document Clustering Methods Based on Cosine Similarity | |||||||||
言語 | ||||||||||
言語 | jpn | |||||||||
資源タイプ | ||||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||||
資源タイプ | technical report | |||||||||
著者所属 | ||||||||||
神奈川大学 | ||||||||||
著者所属 | ||||||||||
神奈川大学 | ||||||||||
著者所属(英) | ||||||||||
en | ||||||||||
Kanagawa University | ||||||||||
著者所属(英) | ||||||||||
en | ||||||||||
Kanagawa University | ||||||||||
著者名 |
方, 越洋
× 方, 越洋
× 斉藤, 和巳
|
|||||||||
著者名(英) |
Etuyou, Hou
× Etuyou, Hou
× Kazumi, Saito
|
|||||||||
論文抄録 | ||||||||||
内容記述タイプ | Other | |||||||||
内容記述 | 本論文では,大規模文書データを対象にし,コサイン類似度に基づく分割型と凝集型ハイブリッド文書クラスタリング法を提案し、その有効性を実証評価する.詳細には,球面 k-means 法の結果に対し,凝集型階層的クラスタリングを適用する枠組みで,群平均法とウォード法を導出するとともに, コサイン法を提案する. さらに,クラスタリング結果のデンドログラムに対して,平均木の深さ,併合点非類似度分布の歪度,平均シルエット係数,および,平均正規化エントロピーの 4 種の尺度からなる評価方法論を提案する.約 30 万と約 800 万の文書からなる NYT と PubMed の 2 種の文書データを用いた評価実験では,群平均法,ウォード法, コサイン法によるデンドログラムを定性評価する.さらに上述した 4 種の尺度による定量評価により,群平均法やウォード法と比較してコサイン法は,平衡なデンドログラムを構成し,併合非類似度が小さく, クラスタリング結果の妥当性や,クラスタのサイズを考慮した平衡性も高いことを示す. | |||||||||
論文抄録(英) | ||||||||||
内容記述タイプ | Other | |||||||||
内容記述 | In this paper, for a given large set of documents, based on cosine similarity, we propose a hybrid document clustering method by combining divisive and agglomerative approaches. Namely, in the framework of applying the agglomerative hierarchical clustering methods to the results of the spherical k-means method, we derive two methods referred to as group average and Ward's methods, and propose a new method referred to as cosine method. Moreover, we propose four methods for evaluating the dendrograms obtained as clustering results, i.e., the average tree depth, the skewness of dissimilarities at cluster merge, the average silhouette coefficient, and the average normalized entropy. In our experimental evaluation using two sets of documents, i.e., NYT and PubMed, we first qualitatively evaluate the resultant dendrograms obtained by the above three method, and then show the quantitative results based on the above four evaluation methods, indicating that in comparison to the other methods, the cosine method produces more self-balanced dendrograms with relatively low dissimilarities, and these clustering results are more valid and self-balances in terms of cluster sizes. | |||||||||
書誌レコードID | ||||||||||
収録物識別子タイプ | NCID | |||||||||
収録物識別子 | AN10505667 | |||||||||
書誌情報 |
研究報告数理モデル化と問題解決(MPS) 巻 2024-MPS-150, 号 2, p. 1-6, 発行日 2024-08-29 |
|||||||||
ISSN | ||||||||||
収録物識別子タイプ | ISSN | |||||||||
収録物識別子 | 2188-8833 | |||||||||
Notice | ||||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||||
出版者 | ||||||||||
言語 | ja | |||||||||
出版者 | 情報処理学会 |