WEKO3
アイテム
Webページ移動先発見のためのクローリング手法の提案
https://ipsj.ixsq.nii.ac.jp/records/18940
https://ipsj.ixsq.nii.ac.jp/records/189401557a1f5-a3a1-41e3-bac1-0e8a0308a3fc
| 名前 / ファイル | ライセンス | アクション |
|---|---|---|
|
|
Copyright (c) 2006 by the Information Processing Society of Japan
|
|
| オープンアクセス | ||
| Item type | SIG Technical Reports(1) | |||||||
|---|---|---|---|---|---|---|---|---|
| 公開日 | 2006-07-14 | |||||||
| タイトル | ||||||||
| タイトル | Webページ移動先発見のためのクローリング手法の提案 | |||||||
| タイトル | ||||||||
| 言語 | en | |||||||
| タイトル | Proposal of a Crawling Method for Finding Moved Web Pages | |||||||
| 言語 | ||||||||
| 言語 | jpn | |||||||
| 資源タイプ | ||||||||
| 資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
| 資源タイプ | technical report | |||||||
| 著者所属 | ||||||||
| 筑波大学 | ||||||||
| 著者所属 | ||||||||
| 筑波大学 | ||||||||
| 著者所属 | ||||||||
| 筑波大学 | ||||||||
| 著者所属 | ||||||||
| 筑波大学 | ||||||||
| 著者所属 | ||||||||
| 筑波大学 | ||||||||
| 著者所属(英) | ||||||||
| en | ||||||||
| Univ. of Tsukuba | ||||||||
| 著者所属(英) | ||||||||
| en | ||||||||
| Univ. of Tsukuba | ||||||||
| 著者所属(英) | ||||||||
| en | ||||||||
| Univ. of Tsukuba | ||||||||
| 著者所属(英) | ||||||||
| en | ||||||||
| Univ. of Tsukuba | ||||||||
| 著者所属(英) | ||||||||
| en | ||||||||
| Univ. of Tsukuba | ||||||||
| 著者名 |
澤, 菜津美
飯田, 敏成
森嶋, 厚行
杉本, 重雄
北川, 博之
× 澤, 菜津美 飯田, 敏成 森嶋, 厚行 杉本, 重雄 北川, 博之
|
|||||||
| 著者名(英) |
Natsumi, Sawa
Toshinari, Iida
Atsuyuki, Morishima
Shigeo, Sugimoto
Hiroyuki, Kitagawa
× Natsumi, Sawa Toshinari, Iida Atsuyuki, Morishima Shigeo, Sugimoto Hiroyuki, Kitagawa
|
|||||||
| 論文抄録 | ||||||||
| 内容記述タイプ | Other | |||||||
| 内容記述 | World Wide Webは我々の社会に不可欠なメディアとなりつつあるが,コンテンツが分散管理されていることから,しばしば内容の一貫性が維持されていないことがある.我々はWebコンテンツの一貫性維持の問題の一つとして,リンク切れの問題に取り組んできた.特に,リンク切れがWebページの移動によって引き起こされた時に,移動先の発見を行う問題に焦点を当ててきた.これまでの実験の結果,多くのページが,同一サイト内で移動していることがわかった.したがって,Webサイト中のWebページをクローリングすることが,移動先発見の手法として有効であるといえる.しかし,大規模なWebサイト全体を網羅的にクローリングすることはコスト的に問題がある.本稿では,クローリングにおけるページ訪問の順序を工夫することにより,より少ないページ数で移動先ページを発見するための手法を提案する.提案手法と深さ優先探索を実験で比較した結果,提案手法が有効であることがわかった. | |||||||
| 論文抄録(英) | ||||||||
| 内容記述タイプ | Other | |||||||
| 内容記述 | While the World Wide Web has become an indispensable medium in our society, the integrity of its contents is not always maintained because of its distributed architecture.We have been tackling the problem of fixing broken Web links, which is an example of the lost integrity of Web contents.In particular, we have been focusing on the problem of how to find moved Web pages when the movement causes broken Web links.Our previous experiments on the problem suggested that many moved Web pages can be found at the same Web site as the Web pages were originally located.Therefore, crawling through the Web site is an effective way to find moved Web pages. An exhaustive crawling, however, would take a huge cost when the size of the Web site is large.This paper proposes a crawling algorithm that visits Web pages in an efficient order.We compared our algorithm with the depth-first order crawling and found that our algorithm is effective. | |||||||
| 書誌レコードID | ||||||||
| 収録物識別子タイプ | NCID | |||||||
| 収録物識別子 | AN10112482 | |||||||
| 書誌情報 |
情報処理学会研究報告データベースシステム(DBS) 巻 2006, 号 78(2006-DBS-140), p. 437-442, 発行日 2006-07-14 |
|||||||
| Notice | ||||||||
| SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
| 出版者 | ||||||||
| 言語 | ja | |||||||
| 出版者 | 情報処理学会 | |||||||