ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 論文誌(ジャーナル)
  2. Vol.49
  3. No.8

HTMLタグを用いたWebページのクラスタリング手法

https://ipsj.ixsq.nii.ac.jp/records/9482
https://ipsj.ixsq.nii.ac.jp/records/9482
5118b8d1-ce44-46aa-8ab7-6eca0f0ec5a7
名前 / ファイル ライセンス アクション
IPSJ-JNL4908018.pdf IPSJ-JNL4908018.pdf (336.4 kB)
Copyright (c) 2008 by the Information Processing Society of Japan
オープンアクセス
Item type Journal(1)
公開日 2008-08-15
タイトル
タイトル HTMLタグを用いたWebページのクラスタリング手法
タイトル
言語 en
タイトル Web Document Clustering Using HTML Tags
言語
言語 jpn
キーワード
主題Scheme Other
主題 一般論文
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_6501
資源タイプ journal article
その他タイトル
その他のタイトル 言語メディア処理と情報コンテンツ
著者所属
電気通信大学大学院電気通信学研究科システム工学専攻
著者所属
電気通信大学電気通信学部システム工学科
著者所属(英)
en
Department of Systems Engineering, Graduate School of Electro-Communications, The University of Electro-Communications
著者所属(英)
en
Department of Systems Engineering, Faculty of Electro-Communications, The University of Electro-Communications
著者名 折原, 大 内海, 彰

× 折原, 大 内海, 彰

折原, 大
内海, 彰

Search repository
著者名(英) Hiroshi, Orihara Akira, Utsumi

× Hiroshi, Orihara Akira, Utsumi

en Hiroshi, Orihara
Akira, Utsumi

Search repository
論文抄録
内容記述タイプ Other
内容記述 本論文は,検索結果を自動分類することで検索支援を行う1つの手法として,Webページのタイプに着目したページのクラスタリング手法を提案する.本論文では,HTMLタグの木構造の情報を用いたクラスタリング手法とHTMLタグのn-gramと出現位置を考慮した頻度情報を用いたクラスタリング手法の2つを提案する.アンケートにより作成した正解データセットを用いた評価実験において,単語の分布(Bag-of-Words BoW)に基づくクラスタリング手法や新聞などのテキストを対象とし文書タイプに分類を行うMulti-way Distributional Clustering(MDC)よりも,2つの提案手法のほうがクラスタリング精度において良い結果となった.また2つの提案手法間では,クラスタリング精度については分類傾向による差はあるものの全体では同等の精度であり,処理時間においてはHTMLタグの頻度情報を用いたクラスタリング手法が良好な結果となった.
論文抄録(英)
内容記述タイプ Other
内容記述 In this paper, we propose two clustering methods based on HTML tags. These methods cluster Web pages according to their type or style, rather than classifying them into predefined genres. The one method is based on the tree structure of HTML tags, and the other is based on the frequency of HTML tags considering the n-gram of tags and the location of tags. In evaluation experiment, our methods achieved better performance than the Bag-Of-Words method and the Multi-way Distributional Clustering (MDC) method. The frequency method achieved as a good performance as the tree-structured method. In evaluation experiment of the overall processing time, the frequency method was faster than the tree-structured method.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AN00116647
書誌情報 情報処理学会論文誌

巻 49, 号 8, p. 2910-2921, 発行日 2008-08-15
ISSN
収録物識別子タイプ ISSN
収録物識別子 1882-7764
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-23 03:24:06.568330
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3