2024-03-29T19:34:21Zhttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_oaipmhoai:ipsj.ixsq.nii.ac.jp:000484952024-03-29T05:26:34Z01164:04179:04229:04232
統計的モデルを用いた単語クラスタリングThe Word Clustering Based on Statistical Modeljpnhttp://id.nii.ac.jp/1001/00048495/Technical Reporthttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_action_common_download&item_id=48495&item_no=1&attribute_id=1&file_no=1Copyright (c) 2001 by the Information Processing Society of Japan東京大学先端科学技術研究センター川前, 徳章青木, 輝勝安田, 浩既存の検索システムはユーザのニーズそのものでなく,キーワードによって検索を行っている.検索にキーワードを利用するため,自然言語の持つ多様性によってユーザの検索が非効率になることがある.この問題の解決の一つにシソーラスがある.そこで本稿では分野と目的を特化したシソーラスの構築を目的として,統計的な単語クラスタリングの手法を提案する.具体的には文書集合から文書の背後にある概念を抽出し,それぞれの概念に固有な単語をクラスタリングする.同一概念毎に単語がクラスタリングされることで分野が特化し,検索質問の拡張あるいは検索結果の構造化といった目的に対応したシソーラスの自動構築が可能となる.提案手法を学術的な内容の文書集合に適用して,単語クラスタリングを生成し,概念毎の単語クラスタリングが生成された結果を報告する.The existing search systems are based on simple word matching method. Therefore the variety of natural language prevent user search activity. The thesaurus is one answer to this problem. We propose a novel statistical word clustering to construct the thesaurus automatically. Here, the concepts are extracted from documents and words in documents are clustering into the same concepts. We can construct the thesaurus that is specialized on a domain and in a function by word clustering. The proposed method is applied to a set of conference documents to examine the effectiveness of the generated word clustering.AN10115061情報処理学会研究報告自然言語処理(NL)200169(2001-NL-144)55602001-07-162009-06-30