WEKO3
アイテム
Webコンテンツ間の共通レイアウト自動解析
https://ipsj.ixsq.nii.ac.jp/records/43177
https://ipsj.ixsq.nii.ac.jp/records/4317715b1168e-c710-4391-ab97-9c990b28dd08
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2001 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2001-05-25 | |||||||
タイトル | ||||||||
タイトル | Webコンテンツ間の共通レイアウト自動解析 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Common layout extraction from Web pages | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
日本アイ・ビー・エム株式会社 東京基礎研究所 | ||||||||
著者所属 | ||||||||
日本アイ・ビー・エム株式会社 東京基礎研究所 | ||||||||
著者所属 | ||||||||
日本アイ・ビー・エム株式会社 東京基礎研究所 | ||||||||
著者所属 | ||||||||
日本アイ・ビー・エム株式会社 東京基礎研究所 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
IBM Japan, Ltd., Tokyo Research Laboratory | ||||||||
著者所属(英) | ||||||||
en | ||||||||
IBM Japan, Ltd., Tokyo Research Laboratory | ||||||||
著者所属(英) | ||||||||
en | ||||||||
IBM Japan, Ltd., Tokyo Research Laboratory | ||||||||
著者所属(英) | ||||||||
en | ||||||||
IBM Japan, Ltd., Tokyo Research Laboratory | ||||||||
著者名 |
福田, 健太郎
× 福田, 健太郎
|
|||||||
著者名(英) |
Kentarou, Fukuda
× Kentarou, Fukuda
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 近年,Webを閲覧するための手段として,PDA・携帯電話などの小画面デバイスや音声ブラウザなどが一般に用いられつつある.通常のWebページはデスクトップコンピュータの画面サイズを考慮し,また視覚的に操作性を向上させるようなレイアウトになっているため,小画面デバイスや音声を用いた閲覧のためにはレイアウトの変更などが必要となる.この様なコンテンツの変換を行うためには,ページの構造や各部位の重要度などを記述したアノテーションを付加することが有効である.しかし,ニュースサイトなどは膨大な数のページを持つため,それぞれに詳細なアノテーションを付加する為には大変な労力が必要になる.一方で,これらのサイトでは同一のレイアウトを用いているページが多数存在するという特徴もある.そこで,本稿ではHTML文書のタグ構造およびその特徴値に基づいてページ間の距離を導出し,同一レイアウトを用いているページ群を自動的に検出する手法の提案を行う.本手法を用いる事により,同一レイアウトのページ間におけるアノテーション共有が可能となり,効率よいアノテーション付加が実現される. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | In these days, people access to the Web by using various devices and methods, such as PDA, cellular phone and voice-based browsers. However, most Web contents are designed for desktop computers. Therefore, already-existing Web contents should be transcode to be suitable for each access devices and methods. For this purpose, some annotation-based transcoding systems have been developed. One of the most difficult problem of annotation is the cost to annotate Web contents. Many of popular sites, such as news sites, have a great number of Web pages and make new contents continually. Hence, it is almost impossible to annotate every contents in these sites. To solve this problem, we introduce the method to extract common layout from web pages. We focus on the structure and characteristics of particular HTML tags, which affect the layout of Web pages. Our method calculates the distance of web pages based on it. In the case where the distance is below the threshold, these pages can be considered as same layout pages. By using this method, a certain annotation can be applied to any Web pages that have identical layout. Therefore, the cost of annotation will be reduced. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10539261 | |||||||
書誌情報 |
情報処理学会研究報告デジタルドキュメント(DD) 巻 2001, 号 52(2001-DD-028), p. 7-14, 発行日 2001-05-25 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |