WEKO3
アイテム
競合学習を用いた情報理論的クラスタリング文書クラスタリングにおける基準及びアルゴリズムの比較
https://ipsj.ixsq.nii.ac.jp/records/83570
https://ipsj.ixsq.nii.ac.jp/records/835706a29f65a-76cf-4afc-9022-1297003cb4d4
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]()
2100年1月1日からダウンロード可能です。
|
Copyright (c) 2012 by the Institute of Electronics, Information and Communication Engineers
This SIG report is only available to those in membership of the SIG. |
|
CVIM:会員:¥0, DLIB:会員:¥0 |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2012-08-26 | |||||||
タイトル | ||||||||
タイトル | 競合学習を用いた情報理論的クラスタリング文書クラスタリングにおける基準及びアルゴリズムの比較 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Information theoretic clustering using competitive learning Comparsion of criterion functions and algorithms for document clustering | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | テーマセッション | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
日本電信電話株式会社サービスエボリューション研究所 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
NTT Service Evolution Laboratories | ||||||||
著者名 |
内山, 俊郎
× 内山, 俊郎
|
|||||||
著者名(英) |
Toshio, Uchiyama
× Toshio, Uchiyama
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 情報理論的クラスタリング(ITC:information-theoretic clustering)は,特徴分布の類似性によりクラスタをまとめる方法である.近年,クラスタリング基準が明確化され,この基準の最適化によるITCアルゴリズムが提案された.このアルゴリズムは,k-means法においてデータが属するクラスタラベルを更新する時に評価関数としてKL(Kullback Leibler)ダイバージェンスを用いる.最近,この考え方に基づいた,新しいアルゴリズムが提案されたその手法は,ゼロ頻度問題を回避するため,KLダイバージェンスの代わりにその近似であるskewダイバージェンスを用い,学習アルゴリズムとしては,k-means法に対する優位性が確認されている競合学習を用いる.本稿は,前記手法がテキストデータを対象とした多クラス問題において,最大マージンクラスタリングや混合von Mises-Fisher分布に基づく方法などの既存アルゴリズムに比べて優れていることを実験により示した. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | Information-theoretic clustering (ITC) finds clusters based on the similarity of the distributions of features. An ITC algorithm based on optimizing the clustering criterion has previously been proposed. This algorithm is reminiscent of the k-means algorithm, but uses Kullback-Leibler (KL) divergence when updating the cluster-labels of the data. Recently, a novel method, based on the idea above, has been proposed. It uses competitive learning,which is known to be superior to the k-means algorithm. The method also uses skew divergence instead of KL divergence to avoid the zero-frequency problem. This paper shows that the method performs better than existing clustering algorithms, such as maximum margin clustering and a method based on mixture of von Mises-Fisher distribution, when applied to text data sets in multiclass problems. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AA11131797 | |||||||
書誌情報 |
研究報告コンピュータビジョンとイメージメディア(CVIM) 巻 2012-CVIM-183, 号 4, p. 1-8, 発行日 2012-08-26 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |