WEKO3
アイテム
共通性分析による文書クラスタリングの評価
https://ipsj.ixsq.nii.ac.jp/records/48233
https://ipsj.ixsq.nii.ac.jp/records/482339c30e7e2-0319-40e4-9a6b-28546c02da48
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2003 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2003-11-06 | |||||||
タイトル | ||||||||
タイトル | 共通性分析による文書クラスタリングの評価 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Evaluation of the Document Clustering Method Based on Commonality Analysis of Multiple Documents | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
日本ヒューレット・パッカード(株) ヒューレット・パッカード研究所 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Hewlett - Packard Labs Japan, Hewlett - Packard Japan | ||||||||
著者名 |
川谷, 隆彦
× 川谷, 隆彦
|
|||||||
著者名(英) |
Takahiko, Kawatani
× Takahiko, Kawatani
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 本報告では、先に提案した多文書間の共通性分析に基づく非階層的な文書クラスタリング法の評価結果について述べる。提案手法では、種として抽出された文書に同じ話題の文書をマージさせつつ順次クラスターを成長させていく。提案手法は、文書・クラスター間の類似度を求める際に、単語共起の情報をも用いた新しい類似度尺度を用いていること、その時点のクラスターの特有単語、単語対を選択的に用いることを特徴としている。TDT2のコーパスから選択した21イベント6788文書、31イベント7306文書、38イベント7546文書のそれぞれに対し、検出クラスター数21、30、36、クラスタリング精度95.17%、95.09%、94.41%を得た。 | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | This paper describes evaluation of a non-hierarchical clustering method based on multi-document commonality analysis proposed by the author. In the method, a document extracted as a seed grows up to a cluster by iteratively merging documents with the same topic. It features in obtaining document-cluster similarity that it uses a new similarity measure reflecting term co-occur information and that specific terms and term pairs extracted from the current cluster are used. In experiments using 7546 documents extracted from 38 events in TDT2 corpus, 36 events were extracted as the clusters with 94.41% clustering accuracy. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10115061 | |||||||
書誌情報 |
情報処理学会研究報告自然言語処理(NL) 巻 2003, 号 108(2003-NL-158), p. 39-46, 発行日 2003-11-06 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |