WEKO3
アイテム
シソーラスと統計情報を統合した単語の類似度計算について
https://ipsj.ixsq.nii.ac.jp/records/48959
https://ipsj.ixsq.nii.ac.jp/records/489594ef6dd81-7d0a-4154-bc14-6356ac567415
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 1997 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 1997-07-24 | |||||||
タイトル | ||||||||
タイトル | シソーラスと統計情報を統合した単語の類似度計算について | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | A Hybrid Approach for Measuring Word Similarity | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
東京工業大学大学院情報理工学研究科 | ||||||||
著者所属 | ||||||||
東京工業大学大学院情報理工学研究科 | ||||||||
著者所属 | ||||||||
東京工業大学大学院情報理工学研究科 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Department of Computer Science Tokyo Institute of Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Department of Computer Science Tokyo Institute of Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Department of Computer Science Tokyo Institute of Technology | ||||||||
著者名 |
藤井, 敦
× 藤井, 敦
|
|||||||
著者名(英) |
Atsushi, Fujii
× Atsushi, Fujii
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 本論文は、単語類似度の計算に関する新しい手法を提案する。本手法の特長は、従来提案されている二つの手法の利点を統合する点にある。従来の手法は、人間が作成したシソーラスにおける単語間のパスの長さに基づく手法、単語の共起頻度に基づく統計的手法に分類される。前者は、シソーラスのパスをたどることで類似度を計算できるので計算コストが安いという利点を持つ。他方において、後者は数学理論を背景にしているという利点を持つ。本手法は、統計的に計算された単語類似度を反映するような重みをシソーラスのパスに割り当てる。そこで、単語間のパスをたどることで、統計的単語類似度を近似することができる。実験を通して、本手法は、統計的単語類似度の大小関係を70%以上の精度で再現できることが確認された。 | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | This paper proposes a new approach for word similarity measurement. The statistics-based computation of word similarity has been popular in recent research, but is associated with a significant computational cost. On the other hand, the use of hand-crafted thesauri as semantic resources is simple to implement, but lacks mathematical rigor. To integrate the advantages of these two approaches, we aim at calculating a statistical weight for each branch of a thesaurus, so that we can measure word similarity simply based on the length of the path between two words in the thesaurus. Our experiment on Japanese nouns shows that this framework upheld the inequality of statistics-based word similarity with an accuracy of more than 70%. We also report on the effectivity of our framework in the task of word sense disambiguation. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10115061 | |||||||
書誌情報 |
情報処理学会研究報告自然言語処理(NL) 巻 1997, 号 69(1997-NL-120), p. 53-58, 発行日 1997-07-24 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |