WEKO3
アイテム
木の編集距離を用いた文の類似度計算方式
https://ipsj.ixsq.nii.ac.jp/records/69507
https://ipsj.ixsq.nii.ac.jp/records/6950740035894-358c-449d-93cd-019d77eb508f
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2010 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2010-05-20 | |||||||
タイトル | ||||||||
タイトル | 木の編集距離を用いた文の類似度計算方式 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Calculating Similarity between Sentences Using Tree-Edit-Distance | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | 翻訳,言語モデル,類似度計算 | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
三菱電機株式会社情報技術総合研究所 | ||||||||
著者所属 | ||||||||
三菱電機株式会社情報技術総合研究所 | ||||||||
著者所属 | ||||||||
三菱電機株式会社情報技術総合研究所 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Information Technology R&D Center Mitsubishi Electric Corporation | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Information Technology R&D Center Mitsubishi Electric Corporation | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Information Technology R&D Center Mitsubishi Electric Corporation | ||||||||
著者名 |
三上, 崇志
× 三上, 崇志
|
|||||||
著者名(英) |
Takashi, Mikami
× Takashi, Mikami
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 業務の効率化や知識獲得を目的として文書の自動分類技術や類似文検索技術の要求が高まっている.従来これらの技術に対して,ベクトル空間モデルによる研究が行われてきたが,文構造を考慮することができない.そこで本稿では,自然文を木構造グラフに変換して解析し,同型構文や意味が類似する文の距離計算方式を提案する.提案方式では木の編集距離を応用して文と文の距離を計算する.木構造内のノード移動を考慮したコスト計算や子ノードのソートを行うなどの改良により,180 文を 20 クラスタに分類する実験において F 尺度 0.738 を得た. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | It is required that the technique of auto classification of documents and the technique of retrieving similar sentences to a query sentence are enhanced in order to increase efficiency of business and require more knowledge. In traditional researches, the vector space model has been developed for those techniques, but it cannot take in structures of a sentence. This report proposes a method of calculating similarity between sentences which have similar structures or between sentences which have similar meanings, by using tree structures gotten by syntactic analysis. This method calculates similarity between sentences using developed tree-edit-distance. In the experiment, the F-measure for classification of 180 sentences into 20 categories was 0.738. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10115061 | |||||||
書誌情報 |
研究報告自然言語処理(NL) 巻 2010-NL-196, 号 3, p. 1-6, 発行日 2010-05-20 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |