WEKO3
アイテム
文ベクトル集合モデルに基づく文書類似尺度の評価
https://ipsj.ixsq.nii.ac.jp/records/19513
https://ipsj.ixsq.nii.ac.jp/records/195137ba66fb7-90f6-477c-a9f5-14c95567422a
| 名前 / ファイル | ライセンス | アクション |
|---|---|---|
|
|
Copyright (c) 2002 by the Information Processing Society of Japan
|
|
| オープンアクセス | ||
| Item type | SIG Technical Reports(1) | |||||||
|---|---|---|---|---|---|---|---|---|
| 公開日 | 2002-05-21 | |||||||
| タイトル | ||||||||
| タイトル | 文ベクトル集合モデルに基づく文書類似尺度の評価 | |||||||
| タイトル | ||||||||
| 言語 | en | |||||||
| タイトル | Evaluation of Document Similarity Measure based on Sentence Vector Set Model | |||||||
| 言語 | ||||||||
| 言語 | jpn | |||||||
| 資源タイプ | ||||||||
| 資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
| 資源タイプ | technical report | |||||||
| 著者所属 | ||||||||
| 株式会社NTTデータ技術開発本部 | ||||||||
| 著者所属 | ||||||||
| 株式会社NTTデータ技術開発本部 | ||||||||
| 著者所属(英) | ||||||||
| en | ||||||||
| Research and Development Headquarters, NTT DATA CORPORATION | ||||||||
| 著者所属(英) | ||||||||
| en | ||||||||
| Research and Development Headquarters, NTT DATA CORPORATION | ||||||||
| 著者名 |
城塚音也
北内, 啓
× 城塚音也 北内, 啓
|
|||||||
| 著者名(英) |
Otoya, Shirotsuka
Akira, Kitauchi
× Otoya, Shirotsuka Akira, Kitauchi
|
|||||||
| 論文抄録 | ||||||||
| 内容記述タイプ | Other | |||||||
| 内容記述 | 類似文書検索、分類、クラスタリング等の近年の計算機による大量文書処理において、文書間の類似度計算には、文書を文書に含まれる単語を次元とするベクトルとして扱うベクトル空間モデルを用いることが主流である。しかしながらベクトル空間モデルでは、文、段落といった文書の構造情報を扱うことが難しいため、文書の構造情報を反映した文書モデルおよび類似尺度が望まれる。本稿では、近年提案された文ベクトル集合モデルに基づく、新しい文書類似尺度を提案する。BMIR-J2の新聞記事データおよび特許データを用いて文書類似尺度の比較実験を行った結果、従来のベクトル空間モデルと比較して、提案する文書類似尺度が、より文書の構造的類似性を反映していることを確認した。 | |||||||
| 論文抄録(英) | ||||||||
| 内容記述タイプ | Other | |||||||
| 内容記述 | Vector Space Model (VSM) is popular in machine-based text processing of a large amount of documents such as similar document retrieval, automatic document classification and document clustering. However, VSM has difficulty in utilizing structural information of document like sentences or paragraphs. Therefore, a novel model for documents and document similarity measure is expected which can express the structural information of documents and calculate its structural similarity. In this paper, we propose a method of document similarity measure based on sentence vector set model, which is recently proposed. According to the experimental results with newspaper articles from BMIR-J2 collection and Japanese patent data, we confirmed better expression capability of document similarity of the proposed method compared to existing VSM. | |||||||
| 書誌レコードID | ||||||||
| 収録物識別子タイプ | NCID | |||||||
| 収録物識別子 | AN10112482 | |||||||
| 書誌情報 |
情報処理学会研究報告データベースシステム(DBS) 巻 2002, 号 41(2002-DBS-127), p. 159-164, 発行日 2002-05-21 |
|||||||
| Notice | ||||||||
| SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
| 出版者 | ||||||||
| 言語 | ja | |||||||
| 出版者 | 情報処理学会 | |||||||