WEKO3
アイテム
Webページの大規模収集・検索基盤の構築と運用
https://ipsj.ixsq.nii.ac.jp/records/62533
https://ipsj.ixsq.nii.ac.jp/records/62533d0170738-ee72-41f6-920b-dc360ad32124
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2009 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2009-07-21 | |||||||
タイトル | ||||||||
タイトル | Webページの大規模収集・検索基盤の構築と運用 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Development of a Large-scale Web Crawler and Search Engine Infrastructure | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | 情報検索 | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
情報通信研究機構 | ||||||||
著者所属 | ||||||||
情報通信研究機構 | ||||||||
著者所属 | ||||||||
情報通信研究機構 | ||||||||
著者所属 | ||||||||
京都大学 | ||||||||
著者所属 | ||||||||
情報通信研究機構/奈良先端科学技術大学院大学 | ||||||||
著者所属 | ||||||||
情報通信研究機構/京都大学 | ||||||||
著者所属 | ||||||||
情報通信研究機構 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
National Institute of Information and Communications Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
National Institute of Information and Communications Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
National Institute of Information and Communications Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Kyoto University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
National Institute of Information and Communications Technology / Nara Institute of Science and Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
National Institute of Information and Communications Technology / Kyoto University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
National Institute of Information and Communications Technology | ||||||||
著者名 |
赤峯, 享
× 赤峯, 享
|
|||||||
著者名(英) |
Susumu, Akamine
× Susumu, Akamine
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 本稿では,情報通信研究機構で構築し,運用している,大規模な Web ページの収集・検索基盤について報告する.本収集・検索基盤は,(1) 10 億ページの web ページを更新収集すること,(2) 収集ページから選択した約 1 億ページの検索対象ページに形態素解析,同義表現解析,構文解析結果を付与したデータを作成し,上位の分析アプリケーションで利用可能にしていること,(3) 選択した検索対象ページに対して検索エンジン基盤 TSUBAKI を用いた検索が常時可能なこと,(4) クラスタ計算機上に分散配置したインデックスやデータを利用することでスケーラブルな構成になっていることを特徴としている. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | This paper reports on the ongoing development of a large-scale Web crawler and search engine infrastructure at National Institute of Information and Communications Technology. The system has several strong features: (1) It collects several hundred million Web pages while maintaining them to be up-to-date, (2) Among the collected pages, selected 100 million pages are converted into the standard data format to store all the results of morphological analysis, dependency parsing, and synonym augmentation. (3) The selected set of pages is regularly searchable and accessible to the users, and (4) The scalability of the system is achieved by distributed data processing over a large-scale cluster machine. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10112482 | |||||||
書誌情報 |
研究報告データベースシステム(DBS) 巻 2009-DBS-148, 号 14, p. 1-8, 発行日 2009-07-21 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |