WEKO3
アイテム
極大共通生垣を用いた情報抽出手法の提案
https://ipsj.ixsq.nii.ac.jp/records/43165
https://ipsj.ixsq.nii.ac.jp/records/431659b585bb5-23ab-43d2-a2b6-b6f7c11b3520
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2002 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2002-03-15 | |||||||
タイトル | ||||||||
タイトル | 極大共通生垣を用いた情報抽出手法の提案 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | A Proposal of Information Extraction Based on Maximal Common Hedge | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
九州大学大学院 システム情報科学府 情報理学専攻 | ||||||||
著者所属 | ||||||||
九州大学大学院 システム情報科学府 情報理学専攻 | ||||||||
著者所属 | ||||||||
九州大学大学院 システム情報科学府 情報理学専攻 | ||||||||
著者所属 | ||||||||
九州大学大学院 システム情報科学府 情報理学専攻 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Department of Informatics, Kyushu University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Department of Informatics, Kyushu University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Department of Informatics, Kyushu University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Department of Informatics, Kyushu University | ||||||||
著者名 |
福田, 賢治
× 福田, 賢治
|
|||||||
著者名(英) |
Kenji, Fukuda
× Kenji, Fukuda
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 本稿ではHTML文書を生垣(hedge)として扱い 複数のHTML文書に対して反単一化(anti-unification)を行なうことでそれらの共通構造を求め その共通構造を用いることで個々のHTML文書の情報を抽出する手法を提案する.本手法では生垣の極小共通汎化を複数のHTML文書の共通パターンとし 共通パターンとHTML文書とマッチングを行うことにより情報を抽出する.本稿では生垣のクラスを単純で正則なクラスと正則なクラスの二つのクラスに限定し それぞれのクラスで極小共通汎化を求め 実際のWebサイトから情報を抽出する実験を行った.特に 正則な生垣のクラスにおいては極小共通汎化の一つとして極大共通部分生垣(maximal common subhedge MCH)を定義した. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | In this paper, we propose the information extraction method treating HTML documents as hedges and using by anti-unification for hedges. We create a common pattern replaced the different parts in each HTML document with variables using by anti-unification for HTML documents, and extract information after matching the common pattern and a HTML document. In this paper, we define maximal common hedge(MCH) as one of the minimal general generalization for hedges. We treat MCH as the common pattern among the HTML documents. As an experiment, we extract information from actual HTML documents. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10539261 | |||||||
書誌情報 |
情報処理学会研究報告デジタルドキュメント(DD) 巻 2002, 号 28(2001-DD-032), p. 151-158, 発行日 2002-03-15 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |