WEKO3
アイテム
コーパスからのキーワード自動抽出
https://ipsj.ixsq.nii.ac.jp/records/48164
https://ipsj.ixsq.nii.ac.jp/records/48164b8927996-a460-4e01-98a2-778e44f40ac8
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2004 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2004-05-13 | |||||||
タイトル | ||||||||
タイトル | コーパスからのキーワード自動抽出 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Keyword extraction from corpus | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
日本電信電話株式会社NTTコミュニケーション科学基礎研究所 | ||||||||
著者所属 | ||||||||
日本電信電話株式会社NTTコミュニケーション科学基礎研究所 | ||||||||
著者所属 | ||||||||
日本電信電話株式会社NTTコミュニケーション科学基礎研究所 | ||||||||
著者所属 | ||||||||
日本電信電話株式会社NTTコミュニケーション科学基礎研究所 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
NTT Communication Science Laboratories, NTT Corporation | ||||||||
著者所属(英) | ||||||||
en | ||||||||
NTT Communication Science Laboratories, NTT Corporation | ||||||||
著者所属(英) | ||||||||
en | ||||||||
NTT Communication Science Laboratories, NTT Corporation | ||||||||
著者所属(英) | ||||||||
en | ||||||||
NTT Communication Science Laboratories, NTT Corporation | ||||||||
著者名 |
金田, 有二
× 金田, 有二
|
|||||||
著者名(英) |
Yuji, Kaneda
× Yuji, Kaneda
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 本報告では,コーパスからのキーワード自動抽出問題を扱う.従来手法では,主として,語の出現頻度や,語の文書中での出現位置などを土台としており,文書のグローパルな内容は慮されていなかった.しかし,実際の文書コーパスNIPSコーパス)を用いた我々の実験では,同じキーワード持つ文書群では,文書間類似度が高い傾向にあるという直観的に妥当な知見を得た.本稿では,この知見に基づき,キーワード抽出基準に,頻度だけでなく,文書間類似度も考慮した新たな手法を提案する.提案法を,NIPSコーパスに適用し,従来のtf-idf法と比較した実験結果から,キーワード抽出における文書間類似度の利用の有効性を確認した. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | In this report, we address the problem of automatic keyword extraction. Conventional methods have been based on term frequencies and term position in a document, not considering the content of the document. In our experiment using NIPS corpus, we found that document similarities among documents with the same keyword are high, which is intuitively reasonable. Based on this finding, we propose a new method in which document similarity as well as the term frequency is incorporated into the criterion of keyword extraction. Comparing the proposed method with the conventional tf-idf method, we confirmed the effectiveness of the document similarity on keyword extraction. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10115061 | |||||||
書誌情報 |
情報処理学会研究報告自然言語処理(NL) 巻 2004, 号 47(2004-NL-161), p. 1-7, 発行日 2004-05-13 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |