WEKO3
アイテム
HTML形式の表構造の内容解析手法とその応用に関する研究
https://ipsj.ixsq.nii.ac.jp/records/48314
https://ipsj.ixsq.nii.ac.jp/records/48314db8c9a46-6671-454b-be89-a866253a9bd1
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2003 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2003-03-06 | |||||||
タイトル | ||||||||
タイトル | HTML形式の表構造の内容解析手法とその応用に関する研究 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | A Method for Analysis of Table Contents of HTML Format and Its Application | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
徳島大学大学院工学研究科知能情報工専攻 | ||||||||
著者所属 | ||||||||
徳島大学大学院工学研究科知能情報工専攻 | ||||||||
著者所属 | ||||||||
徳島大学大学院工学研究科知能情報工専攻 | ||||||||
著者所属 | ||||||||
徳島大学大学院工学研究科知能情報工専攻 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Department of Information Science & Intelligent Systems Faculty of Engineering, Tokushima University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Department of Information Science & Intelligent Systems Faculty of Engineering, Tokushima University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Department of Information Science & Intelligent Systems Faculty of Engineering, Tokushima University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Department of Information Science & Intelligent Systems Faculty of Engineering, Tokushima University | ||||||||
著者名 |
大谷, 貴志
× 大谷, 貴志
|
|||||||
著者名(英) |
Takashi, Otani
× Takashi, Otani
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | WWW 空間上の HTML 文書には,形式的な情報を分かり易く表示するために表が頻繁に掲載されている.これら表構造内には,各項目の上位概念となる属性名や各項目間の関係など,言語学的にも非常に有益な情報を含んでいる.しかし,これらの情報を表構造内から獲得するためには,表内においてどの項目が属性なのか,また,その属性と属性値の関係は行列どちらの方向なのかといった各項目の意味的な関係を解析する技術,すなわち,表の内容解析を行う必要がある.そこで本稿では,WWW 空間上の表構造から言語的に有用な知識を獲得するために,HTML 形式の表構造に対する内容解析を行う手法を提案する.本手法は,各項目の行列方向に存在する項目群をその項目の文脈として捉える.そして,表内の各項目に意味情報が人手で付与された正解データを学習データとして用い.学習データと解析データでの文脈の類似性に基づいて各項目の意味情報の特定を行う.実際に WWW 上に存在する 300 件の表データを用いた実験の結果,表内各項目の意味情報の特定精度(平均適合率)は 0.92 となり,本手法の有効性を確認した.更に,表内容解析結果を応用し た Web アプリケーションとして,問い合わせシステムと読み上げシステム について述べる. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | HTML documents in the WWW space frequently include the table structure, which has a very useful information, such as the meanings and relations of words in the table. In order to extract those information from table structures, we have to specify attribute items and relations between attributes and values in the table. This process is called the tables contents analysis. In this paper, we propose the method to analysis of table contents of HTML format. From the experiment result using 300 HTML table structures, which are collected from WWW space by hand, it was found that this method can obtain 92 percent as the average precision. Moreover, We also mention the inquiry system and the home page reading system, which are web applications adapting the acquired linguistic knowledge. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10115061 | |||||||
書誌情報 |
情報処理学会研究報告自然言語処理(NL) 巻 2003, 号 23(2002-NL-154), p. 137-144, 発行日 2003-03-06 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |