2024-03-28T19:43:01Zhttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_oaipmhoai:ipsj.ixsq.nii.ac.jp:000483142023-04-27T10:00:04Z01164:04179:04215:04220
HTML形式の表構造の内容解析手法とその応用に関する研究A Method for Analysis of Table Contents of HTML Format and Its Applicationjpnhttp://id.nii.ac.jp/1001/00048314/Technical Reporthttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_action_common_download&item_id=48314&item_no=1&attribute_id=1&file_no=1Copyright (c) 2003 by the Information Processing Society of Japan徳島大学大学院工学研究科知能情報工専攻徳島大学大学院工学研究科知能情報工専攻徳島大学大学院工学研究科知能情報工専攻徳島大学大学院工学研究科知能情報工専攻大谷, 貴志獅々堀正幹柘植, 覚北, 研二WWW 空間上の HTML 文書には,形式的な情報を分かり易く表示するために表が頻繁に掲載されている.これら表構造内には,各項目の上位概念となる属性名や各項目間の関係など,言語学的にも非常に有益な情報を含んでいる.しかし,これらの情報を表構造内から獲得するためには,表内においてどの項目が属性なのか,また,その属性と属性値の関係は行列どちらの方向なのかといった各項目の意味的な関係を解析する技術,すなわち,表の内容解析を行う必要がある.そこで本稿では,WWW 空間上の表構造から言語的に有用な知識を獲得するために,HTML 形式の表構造に対する内容解析を行う手法を提案する.本手法は,各項目の行列方向に存在する項目群をその項目の文脈として捉える.そして,表内の各項目に意味情報が人手で付与された正解データを学習データとして用い.学習データと解析データでの文脈の類似性に基づいて各項目の意味情報の特定を行う.実際に WWW 上に存在する 300 件の表データを用いた実験の結果,表内各項目の意味情報の特定精度(平均適合率)は 0.92 となり,本手法の有効性を確認した.更に,表内容解析結果を応用し た Web アプリケーションとして,問い合わせシステムと読み上げシステム について述べる.HTML documents in the WWW space frequently include the table structure, which has a very useful information, such as the meanings and relations of words in the table. In order to extract those information from table structures, we have to specify attribute items and relations between attributes and values in the table. This process is called the tables contents analysis. In this paper, we propose the method to analysis of table contents of HTML format. From the experiment result using 300 HTML table structures, which are collected from WWW space by hand, it was found that this method can obtain 92 percent as the average precision. Moreover, We also mention the inquiry system and the home page reading system, which are web applications adapting the acquired linguistic knowledge.AN10115061情報処理学会研究報告自然言語処理(NL)200323(2002-NL-154)1371442003-03-062009-06-30