@techreport{oai:ipsj.ixsq.nii.ac.jp:00040583, author = {安形, 輝 and 石田, 栄美 and 久野, 高志 and 野末, 道子 and 上田, 修一 and Teru, Agata and Emi, Ishida and Takashi, Kuno and Michiko, Nozue and Shuichi, Ueda}, issue = {39(1999-FI-054)}, month = {May}, note = {インターネットの発展とともにWebページ数は急速に増加し,国内だけで2000万ページに達しているとみられる。人手による選択と分類によるディレクトリ型では,増え続ける量を管理できないことが予想され,ロボットが網羅的にWebページを自動収集するロボット型では,内容の乏しいページが大量に出力される。そこでWebページを巡回するロボットに各ページの自動判断機能を持たせる必要があり,これは,不要ページの除去,ページ群の判定,有用性の判定,それに分類という手順になる。Webページの標本を元にその特徴を調査して,有用性についての目安を示した。さらに,文字列から形態素解析により抽出した語に相対頻度により重み付けする手法とn?gramにより文字列を抽出しベクトル空間型モデルによる情報検索を応用した手法によって,webページの自動分類を行った。なお,分類体系としては,『日本十進分類法』,Yahoo! Japanで用いられているカテゴリを用いた。さらに,比較のために,外部の分類体系としてCSJインデックスの分類表を用いた。, The amount of World Wide Web (WWW) pages has grown dramatically over the last few years with the growth of internet. It is estimated that there are currently over 18 million WWW pages in Japan. In order to satisfy the requirement for new search engines for WWW pages, it is necessary to develop automatic mechanisms for the deletion of less important pages, the identification of identical pages, judgement of usefulness of pages, and classification. In order to classify WWW pages in Japanese, experiments of classification using NDC. Yahoo! categories, and CSJ index as classification scheme were conducted. We present two classification algorithms based on relative frequencies of terms and information retrieval technique using vector-space model.}, title = {WWWページの自動分類 NDCの分類体系とYahooのカテゴリを使った分類}, year = {1999} }