大規模 XML データにおける効率的な重複データ検出

小柳涼介; 天笠俊之; 北川博之

WEKO3

lat lon distance

[[sub_check.contents]]

[[sub_radio.contents]]

Field does not validate

[[sub_attr.contents]]　

インデックスツリー

アイテム

大規模 XML データにおける効率的な重複データ検出

https://ipsj.ixsq.nii.ac.jp/records/104543

名前 / ファイル	ライセンス	アクション
IPSJ-Z76-3N-8.pdf (311.7 kB)	Copyright (c) 2014 by the Information Processing Society of Japan
オープンアクセス

Item type

National Convention(1)

公開日

2014-03-11

タイトル

大規模 XML データにおける効率的な重複データ検出

言語

jpn

キーワード

主題Scheme

Other

主題

データベースとメディア

資源タイプ

資源タイプ識別子

http://purl.org/coar/resource_type/c_5794

資源タイプ

conference paper

著者所属

筑波大

著者所属

筑波大

著者所属

筑波大

著者名

小柳涼介
天笠俊之
北川博之

論文抄録

内容記述タイプ

Other

内容記述

現在Web上には膨大な情報が溢れているが，中には内容が大きく類似している情報も多数存在している．膨大な情報からある文書との類似度を効率的に計算することができれば，重複部分候補の検出を行うことができ，引用，盗用の検出や重複除去等様々な用途に活用できると考えられる．XMLは構造的情報や意味的情報を格納した文書データである．XMLの持つ情報をうまく活用して類似度を計算することができれば，単純なテキストデータの類似度を計算するよりもさらに高度な結果が得られる．本研究では，XMLの木構造とテキストノードのラベルの情報を利用して類似度を計算し与えられたXMLとの重複部分を検出する手法を提案する。

書誌レコードID

収録物識別子タイプ

NCID

収録物識別子

AN00349328

書誌情報

第76回全国大会講演論文集

巻 2014, 号 1, p. 607-608, 発行日 2014-03-11

出版者

言語

出版者

情報処理学会

戻る

views

See details

	Views

Versions

Ver.1

2025-01-21 10:20:53.048258

Show All versions

Cite as

エクスポート

OAI-PMH

JPCOAR
DublinCore
DDI

Other Formats

JSON
BIBTEX

インデックスリンク

インデックスツリー

アイテム

大規模 XML データにおける効率的な重複データ検出

× 小柳涼介

× 天笠俊之

× 北川博之

Versions

Share

Cite as

エクスポート