WEKO3
アイテム
大規模Webアーカイブ更新のための階層的スケジューリング手法
https://ipsj.ixsq.nii.ac.jp/records/66387
https://ipsj.ixsq.nii.ac.jp/records/66387ad942823-857a-412b-99d0-b928ed920bd2
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2009 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | Trans(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2009-09-30 | |||||||
タイトル | ||||||||
タイトル | 大規模Webアーカイブ更新のための階層的スケジューリング手法 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | A Hierarchical Scheduling Method for Refreshing Large Scale Web Archives | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | 研究論文 | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_6501 | |||||||
資源タイプ | journal article | |||||||
著者所属 | ||||||||
三菱電機株式会社情報技術総合研究所/東京大学生産技術研究所 | ||||||||
著者所属 | ||||||||
東京大学生産技術研究所 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Information Technology R&D Center, Mitsubishi Electric Corporation / Institute of Industrial Science, The University of Tokyo | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Institute of Industrial Science, The University of Tokyo | ||||||||
著者名 |
田村, 孝之
× 田村, 孝之
|
|||||||
著者名(英) |
Takayuki, Tamura
× Takayuki, Tamura
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 筆者らは Web 情報からの社会知の抽出を目指し,大規模 Web アーカイブの構築を行っている.刻々と変化する Web 情報に追随するため,10 億規模の Web ページのそれぞれについて更新間隔の推定を行い,独立したタイミングで再収集を行う更新クローラの開発を進めてきた.しかし,実際のクローリングにおいては通信リソースや Web サーバにもたらす負荷に上限があり,スケジュールが実施不能に陥ることもある.本稿では,Web ページが属する Web サーバごとにアクセス要求を集約し,通信リソースの割当てを行うとともに,実施不能なスケジュールを検出して Web ページの再収集スケジュールの修正を可能にする階層的スケジューリング手法について提案する.さらに実際のクロールログを用いてその有効性を示す. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | We are building a large scale Web archive for exploiting societal knowledge from the Web. To catch up with the ever-changing Web, we have developed an incremental crawler, which revisits Web pages individually according to their estimated change frequencies. The real-world crawling, however, suffers from the constraints on the amount of communication resources and the politeness of the server access behavior, causing the revisit schedule to be infeasible. This paper proposes a hierarchical scheduling method, which allocates communication resources to Web servers that accommodate Web pages, and triggers rescheduling upon detection of infeasible schedules. Its effectiveness is convinced using actural crawl logs. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AA11464847 | |||||||
書誌情報 |
情報処理学会論文誌データベース(TOD) 巻 2, 号 3, p. 67-75, 発行日 2009-09-30 |
|||||||
ISSN | ||||||||
収録物識別子タイプ | ISSN | |||||||
収録物識別子 | 1882-7799 | |||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |