@techreport{oai:ipsj.ixsq.nii.ac.jp:00048430, author = {川前, 徳章 and 青木, 輝勝 and 安田, 浩 and Noriaki, Kawamae and Terumasa, Aoki and Hiroshi, Yasuda}, issue = {20(2001-NL-148)}, month = {Mar}, note = {本研究は統計的潜在的意味のインデキシング(SLSI)という新しい数学的アプローチを提案する。提案手法は文書だけでなく、文書内に出現した単語も同時に潜在的意味空間に配置することができ、その空間においてインデキシングを行える。これは潜在的意味が文書に出現した単語よりも文書をインデキシングできるためである。特異値分解に基づいたLSIやそれを発展させたPLSIとSLSIの相違点はずっと意味のあり因子分析と情報理論に基づいた堅固な統計モデルをもっていることである。それゆえSLSIやPLSIで未解決だったいくつかの問題点を解消することができた。テストコレクションについてこの実験を行った結果、SLSIはLSIやPLSIよりも精度が良かった。加えてエントロピーに基づいた単語の重み付けを提案し、これを利用した結果、我々は事前に重要な単語を判断し、その結果文書中に出現した全単語から最小限必要な単語を選択することができる。従って、この手法は計算コストの減少を実現する事を可能とした。, The main goal of this paper is to propose Statistical Latent Semantic Indexing(SLSI) that is a novel statistical approach to simultaneously ma documents and terms into a latent semantic space. This is because latent semantics of the documents fits to categorize the documents than indexing terms in the documents. In contrast to Latent Semantic Indexing(LSI) based on Singular Value Decomposition (SVD) and Probabilistic Latent Semantic Indexing (PLSI), SLSI has a more meaningful and solid statistical model that is based on a factor analysis and information theory. Therefore, this model can solve the remained critical problems in LSI and PLSI. Experimental results with a number of a test collection show that SLSI is much better than LSI and PLSI in viewpoints of retrieval. Moreover, we propose a new term weighting method based on entropy. By this method we can judge which terms are important, and can extract only minimum essential terms from them. As a result, this method makes it possible to reduce calculation cost.}, title = {統計的潜在的意味空間の抽出}, year = {2002} }