WEKO3
アイテム
文字列出現頻度比較による情報源間の類似性判定
https://ipsj.ixsq.nii.ac.jp/records/43161
https://ipsj.ixsq.nii.ac.jp/records/43161a1524bb2-536a-4daf-b169-e3b0be973c18
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2002 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2002-03-15 | |||||||
タイトル | ||||||||
タイトル | 文字列出現頻度比較による情報源間の類似性判定 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Measuring Similarity among Information Sources by Comparing String Frequency Distributions | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
NTT未来ねっと研究所 | ||||||||
著者所属 | ||||||||
NTT未来ねっと研究所 | ||||||||
著者所属 | ||||||||
NTT未来ねっと研究所 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
NTT Network Innovation Laboratories | ||||||||
著者所属(英) | ||||||||
en | ||||||||
NTT Network Innovation Laboratories | ||||||||
著者所属(英) | ||||||||
en | ||||||||
NTT Network Innovation Laboratories | ||||||||
著者名 |
佐藤進也
原田, 昌紀
風間, 一洋
× 佐藤進也 原田, 昌紀 風間, 一洋
|
|||||||
著者名(英) |
Shin, -YaSato
Masanori, Harada
Kazuhiro, Kazama
× Shin, -YaSato Masanori, Harada Kazuhiro, Kazama
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | Webサーバなどの情報源が持つリソース群中の文字列出現頻度を比較することで情報源間の類似性を判定する手法を提案する.これは,文書中の単語の使用頻度などを筆致を表す特徴量とし,その一致度から著者の同一性を判定する著者推定の手法を応用したものである.本論文では,本手法を著者推定の一方法から導く過程を示す.さらに,本手法から導かれる情報源間の関係と,Webディレクトリにおけるカテゴリの階層構造から導かれる情報源間の関係との整合性を調べ,本手法の妥当性を検証する.また,応用例として情報源の特徴語抽出について述べる. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | We propose a novel method for measuring similarity among information sources, such as web servers, by comparing distributions of string occurrence frequency in their resources. This approach is an analogue of the literary detective, which is to identify an author by comparing statistical characteristics of documents (e.g., word frequency distributions) that reflect authrs' writing styles. In this paper, we show how we have developed and validated the method. Similarity measured with this method is compared with that of derived from a Web directory service where information sources are classified and hierarchically arranged. We also describe a way to apply the similarity measuring method to selecting feature terms of information sources. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10539261 | |||||||
書誌情報 |
情報処理学会研究報告デジタルドキュメント(DD) 巻 2002, 号 28(2001-DD-032), p. 119-126, 発行日 2002-03-15 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |