ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 研究報告
  2. データベースシステム(DBS)※2025年度よりデータベースとデータサイエンス(DBS)研究会に名称変更
  3. 2009
  4. 2009-DBS-148

Webページの大規模収集・検索基盤の構築と運用

https://ipsj.ixsq.nii.ac.jp/records/62533
https://ipsj.ixsq.nii.ac.jp/records/62533
d0170738-ee72-41f6-920b-dc360ad32124
名前 / ファイル ライセンス アクション
IPSJ-DBS09148014.pdf IPSJ-DBS09148014.pdf (911.6 kB)
Copyright (c) 2009 by the Information Processing Society of Japan
オープンアクセス
Item type SIG Technical Reports(1)
公開日 2009-07-21
タイトル
タイトル Webページの大規模収集・検索基盤の構築と運用
タイトル
言語 en
タイトル Development of a Large-scale Web Crawler and Search Engine Infrastructure
言語
言語 jpn
キーワード
主題Scheme Other
主題 情報検索
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_18gh
資源タイプ technical report
著者所属
情報通信研究機構
著者所属
情報通信研究機構
著者所属
情報通信研究機構
著者所属
京都大学
著者所属
情報通信研究機構/奈良先端科学技術大学院大学
著者所属
情報通信研究機構/京都大学
著者所属
情報通信研究機構
著者所属(英)
en
National Institute of Information and Communications Technology
著者所属(英)
en
National Institute of Information and Communications Technology
著者所属(英)
en
National Institute of Information and Communications Technology
著者所属(英)
en
Kyoto University
著者所属(英)
en
National Institute of Information and Communications Technology / Nara Institute of Science and Technology
著者所属(英)
en
National Institute of Information and Communications Technology / Kyoto University
著者所属(英)
en
National Institute of Information and Communications Technology
著者名 赤峯, 享 加藤, 義清 河原, 大輔 新里, 圭司 乾, 健太郎 黒橋, 禎夫 木俵, 豊

× 赤峯, 享 加藤, 義清 河原, 大輔 新里, 圭司 乾, 健太郎 黒橋, 禎夫 木俵, 豊

赤峯, 享
加藤, 義清
河原, 大輔
新里, 圭司
乾, 健太郎
黒橋, 禎夫
木俵, 豊

Search repository
著者名(英) Susumu, Akamine Yoshikiyo, Kato Daisuke, Kawahara Keiji, Shinzato Kentaro, Inui Sadao, Kurohashi Yutaka, Kidawara

× Susumu, Akamine Yoshikiyo, Kato Daisuke, Kawahara Keiji, Shinzato Kentaro, Inui Sadao, Kurohashi Yutaka, Kidawara

en Susumu, Akamine
Yoshikiyo, Kato
Daisuke, Kawahara
Keiji, Shinzato
Kentaro, Inui
Sadao, Kurohashi
Yutaka, Kidawara

Search repository
論文抄録
内容記述タイプ Other
内容記述 本稿では,情報通信研究機構で構築し,運用している,大規模な Web ページの収集・検索基盤について報告する.本収集・検索基盤は,(1) 10 億ページの web ページを更新収集すること,(2) 収集ページから選択した約 1 億ページの検索対象ページに形態素解析,同義表現解析,構文解析結果を付与したデータを作成し,上位の分析アプリケーションで利用可能にしていること,(3) 選択した検索対象ページに対して検索エンジン基盤 TSUBAKI を用いた検索が常時可能なこと,(4) クラスタ計算機上に分散配置したインデックスやデータを利用することでスケーラブルな構成になっていることを特徴としている.
論文抄録(英)
内容記述タイプ Other
内容記述 This paper reports on the ongoing development of a large-scale Web crawler and search engine infrastructure at National Institute of Information and Communications Technology. The system has several strong features: (1) It collects several hundred million Web pages while maintaining them to be up-to-date, (2) Among the collected pages, selected 100 million pages are converted into the standard data format to store all the results of morphological analysis, dependency parsing, and synonym augmentation. (3) The selected set of pages is regularly searchable and accessible to the users, and (4) The scalability of the system is achieved by distributed data processing over a large-scale cluster machine.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AN10112482
書誌情報 研究報告データベースシステム(DBS)

巻 2009-DBS-148, 号 14, p. 1-8, 発行日 2009-07-21
Notice
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-22 02:35:37.830869
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3