WEKO3
アイテム
部分文字列の頻度分布に基づいた同一テンプレートを持つWebページの自動収集
https://ipsj.ixsq.nii.ac.jp/records/48112
https://ipsj.ixsq.nii.ac.jp/records/48112eb63bb5b-b10a-48a0-a650-ddadb178004b
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2004 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2004-09-16 | |||||||
タイトル | ||||||||
タイトル | 部分文字列の頻度分布に基づいた同一テンプレートを持つWebページの自動収集 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Collecting Web Pages with Templates using Distributions of Substring Frequencies | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
九州大学附属図書館 | ||||||||
著者所属 | ||||||||
九州大学大学院システム情報科学府 | ||||||||
著者所属 | ||||||||
九州大学情報基盤センター | ||||||||
著者所属 | ||||||||
九州大学大学院システム情報科学府 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Kyushu University Library | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Information Science and Electrical Engineering, Kyushu University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Computing and Communications Center, Kyushu University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Information Science and Electrical Engineering, Kyushu University | ||||||||
著者名 |
池田, 大輔
× 池田, 大輔
|
|||||||
著者名(英) |
Daisuke, Ikeda
× Daisuke, Ikeda
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | クローラー等が収集した大量のWebページから、テンプレートを共有するWebページ群を発見するデータ発見問題について考察する。各テンプレートから生成されたページ群は情報抽出やラッパー生成アルゴリズムの入力として利用できる。本稿では、この問題に対し部分文字列増幅法と呼ばれる線形時間アルゴリズムを利用し、実データを用いた実験により有効性を示す。この手法はコンテンツを記述する言語の頻度分布を利用するが、実際に9ヶ国の言語に対し分布を調べ、言語非依存性も示す。さらに、ノイズが混入する場合はノイズを分離する境界値の設定が必要だが、自然言語に普遍的な特徴を用いることで、設定の一部を自動化する方法を提案する。 | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | We consider the data discovery problem to find sets of Web pages, each of which share some template, among many pages collected by a Web crawler. A found set is a potential input for information extraction and wrapper generation algorithms. We propose a linear time algorithm, called the substring amplification, and show its effectiveness by experiments using real data. The algorithm exploits distributions of substring frequencies for natural languages, which describe contents. Therefore, we examine distributions for 9 languages, and show its independence from natural languages. The algorithm requires a threshold value if noise files abound. We discuss how to decide an appropriate value for it using properties of natural languages. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10115061 | |||||||
書誌情報 |
情報処理学会研究報告自然言語処理(NL) 巻 2004, 号 93(2004-NL-163), p. 15-20, 発行日 2004-09-16 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |