WEKO3
アイテム
WWWページの自動分類NDCの分類体系とYahooのカテゴリを使った分類
https://ipsj.ixsq.nii.ac.jp/records/19859
https://ipsj.ixsq.nii.ac.jp/records/19859094dc023-6ec4-4932-b2ef-fbc5d840707d
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 1999 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 1999-05-17 | |||||||
タイトル | ||||||||
タイトル | WWWページの自動分類NDCの分類体系とYahooのカテゴリを使った分類 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Automatic Classification of World Wide Web Pages | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
亜細亜大学 | ||||||||
著者所属 | ||||||||
慶應義塾大学大学院 | ||||||||
著者所属 | ||||||||
作新学院女子短大 | ||||||||
著者所属 | ||||||||
鉄道総合技術研究所 | ||||||||
著者所属 | ||||||||
慶應義塾大学文学部 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Asia University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Library and Information Science, Keio University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Sakushin Gakuin Women's Junior College | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Railway Technical Research Institute | ||||||||
著者所属(英) | ||||||||
en | ||||||||
School of Library and Information Science Keio University | ||||||||
著者名 |
安形, 輝
× 安形, 輝
|
|||||||
著者名(英) |
Agata, Teru
× Agata, Teru
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | インターネットの発展とともにWebページ数は急速に増加し,国内だけで2000万ページに達しているとみられる。人手による選択と分類によるディレクトリ型では,増え続ける量を管理できないことが予想され,ロボットが網羅的にWebページを自動収集するロボット型では,内容の乏しいページが大量に出力される。そこでWebページを巡回するロボットに各ページの自動判断機能を持たせる必要があり,これは,不要ページの除去,ページ群の判定,有用性の判定,それに分類という手順になる。Webページの標本を元にその特徴を調査して,有用性についての目安を示した。さらに,文字列から形態素解析により抽出した語に相対頻度により重み付けする手法とn-gramにより文字列を抽出しベクトル空間型モデルによる情報検索を応用した手法によって,webページの自動分類を行った。なお,分類体系としては,『日本十進分類法』,Yahoo! Japanで用いられているカテゴリを用いた。さらに,比較のために,外部の分類体系としてCSJインデックスの分類表を用いた。 | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | The amount of World Wide Web (WWW) pages has grown dramatically over the last few years with the growth of internet. It is estimated that there are currently over 18 million WWW pages in Japan. In order to satisfy the requirement for new search engines for WWW pages, it is necessary to develop automatic mechanisms for the deletion of less important pages, the identification of identical pages, judgement of usefulness of pages, and classification. In order to classify WWW pages in Japanese, experiments of classification using NDC. Yahoo! categories, and CSJ index as classification scheme were conducted. We present two classification algorithms based on relative frequencies of terms and information retrieval technique using vector-space model. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10112482 | |||||||
書誌情報 |
情報処理学会研究報告データベースシステム(DBS) 巻 1999, 号 39(1999-DBS-118), p. 113-120, 発行日 1999-05-17 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |