ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 研究報告
  2. 数理モデル化と問題解決(MPS)
  3. 2024
  4. 2024-MPS-150

コサイン類似度に基づく分割型と凝集型ハイブリッド文書クラスタリング法の改良および定量評価

https://ipsj.ixsq.nii.ac.jp/records/238522
https://ipsj.ixsq.nii.ac.jp/records/238522
626898cd-e781-4864-bf4c-8c4207737e57
名前 / ファイル ライセンス アクション
IPSJ-MPS24150002.pdf IPSJ-MPS24150002.pdf (1.9 MB)
 2026年8月29日からダウンロード可能です。
Copyright (c) 2024 by the Information Processing Society of Japan
非会員:¥660, IPSJ:学会員:¥330, MPS:会員:¥0, DLIB:会員:¥0
Item type SIG Technical Reports(1)
公開日 2024-08-29
タイトル
タイトル コサイン類似度に基づく分割型と凝集型ハイブリッド文書クラスタリング法の改良および定量評価
タイトル
言語 en
タイトル Improvement and Quantitative Evaluation of Divisive and Agglomerative Hybrid Document Clustering Methods Based on Cosine Similarity
言語
言語 jpn
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_18gh
資源タイプ technical report
著者所属
神奈川大学
著者所属
神奈川大学
著者所属(英)
en
Kanagawa University
著者所属(英)
en
Kanagawa University
著者名 方, 越洋

× 方, 越洋

方, 越洋

Search repository
斉藤, 和巳

× 斉藤, 和巳

斉藤, 和巳

Search repository
著者名(英) Etuyou, Hou

× Etuyou, Hou

en Etuyou, Hou

Search repository
Kazumi, Saito

× Kazumi, Saito

en Kazumi, Saito

Search repository
論文抄録
内容記述タイプ Other
内容記述 本論文では,大規模文書データを対象にし,コサイン類似度に基づく分割型と凝集型ハイブリッド文書クラスタリング法を提案し、その有効性を実証評価する.詳細には,球面 k-means 法の結果に対し,凝集型階層的クラスタリングを適用する枠組みで,群平均法とウォード法を導出するとともに, コサイン法を提案する. さらに,クラスタリング結果のデンドログラムに対して,平均木の深さ,併合点非類似度分布の歪度,平均シルエット係数,および,平均正規化エントロピーの 4 種の尺度からなる評価方法論を提案する.約 30 万と約 800 万の文書からなる NYT と PubMed の 2 種の文書データを用いた評価実験では,群平均法,ウォード法, コサイン法によるデンドログラムを定性評価する.さらに上述した 4 種の尺度による定量評価により,群平均法やウォード法と比較してコサイン法は,平衡なデンドログラムを構成し,併合非類似度が小さく, クラスタリング結果の妥当性や,クラスタのサイズを考慮した平衡性も高いことを示す.
論文抄録(英)
内容記述タイプ Other
内容記述 In this paper, for a given large set of documents, based on cosine similarity, we propose a hybrid document clustering method by combining divisive and agglomerative approaches. Namely, in the framework of applying the agglomerative hierarchical clustering methods to the results of the spherical k-means method, we derive two methods referred to as group average and Ward's methods, and propose a new method referred to as cosine method. Moreover, we propose four methods for evaluating the dendrograms obtained as clustering results, i.e., the average tree depth, the skewness of dissimilarities at cluster merge, the average silhouette coefficient, and the average normalized entropy. In our experimental evaluation using two sets of documents, i.e., NYT and PubMed, we first qualitatively evaluate the resultant dendrograms obtained by the above three method, and then show the quantitative results based on the above four evaluation methods, indicating that in comparison to the other methods, the cosine method produces more self-balanced dendrograms with relatively low dissimilarities, and these clustering results are more valid and self-balances in terms of cluster sizes.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AN10505667
書誌情報 研究報告数理モデル化と問題解決(MPS)

巻 2024-MPS-150, 号 2, p. 1-6, 発行日 2024-08-29
ISSN
収録物識別子タイプ ISSN
収録物識別子 2188-8833
Notice
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-19 08:32:28.651058
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3