@article{oai:ipsj.ixsq.nii.ac.jp:00062949, author = {村岡, 洋一 and 山名, 早人 and 松井, くにお and 橋本, 三奈子 and 赤羽匡子 and 萩原, 純一 and Yoichi, MURAOKA and Hayato, YAMANA and Kunio, MATSUI and Minako, HASIMOTO and KyokoAKABANE and Junichi, HAGIWARA}, issue = {11}, journal = {情報処理}, month = {Nov}, note = {Webページ数は,2006年11月時点で537億ページと推測されている1).我々は,2004年1月--2006年7月の間に,全世界の5 548万台のWebサーバからテキストのみを対象に収集を行い,ユニークなWebページ数として約144.5億ページを収集した.また,収集済Webページに対して,トップレベルドメイン分布,記述言語分布,Webサーバの地理的位置の解析,バックリンク解析やPageRank計算を進め,Web空間の現状分析を行った.さらに,Webページの解析がビジネスに利用可能であることを示すために,企業のWebサイト上の活動を可視化するe企業調査プロトタイプを構築し,企業の特徴,戦略,評判などの抽出を行った.}, pages = {1277--1283}, title = {学と産の連携による基盤ソフトウェアの先進的開発:8.100億規模のWebページ収集・分析への挑戦}, volume = {49}, year = {2008} }