@techreport{oai:ipsj.ixsq.nii.ac.jp:00018810, author = {正田備也 and 喜安, 千弥 and 宮原, 末治 and Tomonari, MASADA and Senya, KIYASU and Sueharu, MIYAHARA}, issue = {65(2007-DBS-143)}, month = {Jul}, note = {本論文では、Blei らによって提案された潜在的ディリクレ配分法(latent Dirichlet allocation)を、特徴ベクトルの次元圧縮法として利用し、文書クラスタリングにおける有効性を明らかにする。評価実験では、曰本語と韓国語の Web ニュース記事のクラスタリングをおこない、記事の属するジャンルをクラスタリング結果の評価に用いる。単語の出現頻度をそのまま入力として、混合多項分布モデルを用いたクラスタリングを行う場合と、潜在的ディリクレ配分法によって次元圧縮された特徴ベクトルを入力として、同じく混合多項分布モデルを用いたクラスタリングを行う場合とで、クラスタリング結果を比較評価する。, In this paper, we employ the latent Dirichlet allocation as a method for the dimensionality reduction of feature vectors and reveal its effectiveness in document clustering. In the evaluation experiment, we perform clustering on the document sets of Japanese and Korean Web news articles. We regard the categories assigned to each article as the ground truth of clustering evaluation. We compare the clustering results obtained by using the feature vectors whose entries are term frequencies with the results obtained by using the feature vectors whose dimensions are reduced by the latent Dirichlet allocation.}, title = {文書クラスタリングのための潜在的ディリクレ配分法による次元圧縮}, year = {2007} }