WEKO3
アイテム
文書クラスタリングへの文脈付きで非対称な単語類似度の応用
https://ipsj.ixsq.nii.ac.jp/records/210615
https://ipsj.ixsq.nii.ac.jp/records/210615129d62d5-dd27-4904-bc3c-aa1be228a638
| 名前 / ファイル | ライセンス | アクション |
|---|---|---|
|
|
Copyright (c) 2021 by the Information Processing Society of Japan
|
|
| オープンアクセス | ||
| Item type | SIG Technical Reports(1) | |||||||||
|---|---|---|---|---|---|---|---|---|---|---|
| 公開日 | 2021-03-19 | |||||||||
| タイトル | ||||||||||
| タイトル | 文書クラスタリングへの文脈付きで非対称な単語類似度の応用 | |||||||||
| 言語 | ||||||||||
| 言語 | jpn | |||||||||
| キーワード | ||||||||||
| 主題Scheme | Other | |||||||||
| 主題 | テキスト解析 | |||||||||
| 資源タイプ | ||||||||||
| 資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||||
| 資源タイプ | technical report | |||||||||
| 著者所属 | ||||||||||
| 慶應義塾大学文学部 | ||||||||||
| 著者所属 | ||||||||||
| 慶應義塾大学大学院文学研究科後期博士課程 | ||||||||||
| 著者所属(英) | ||||||||||
| en | ||||||||||
| Faculty of Letters, Keio University | ||||||||||
| 著者所属(英) | ||||||||||
| en | ||||||||||
| Graduate School of Letters, Keio University | ||||||||||
| 著者名 |
岸田, 和明
× 岸田, 和明
× 門脇, 夏紀
|
|||||||||
| 論文抄録 | ||||||||||
| 内容記述タイプ | Other | |||||||||
| 内容記述 | Twitter におけるツイートに代表される,いわゆる「短いテキスト」に対して,文書クラスタリングの手法を適用する際には,自動的に語を追加するなどして,その表現を補っておくことが望ましい.これは,この種の短いテキストには十分な数の語が含まれないことから,同義語などの表記のゆれが,悪影響を及ぼす可能性が高いためである.本研究では,この問題に対してクエリ拡張(query expansion)の手法を適用する.その際の語間の類似度の計算には,従来的な類似度シソーラスのほか,翻訳確率の推定法である IBM Model 1 に基づく独自の手法を使う.これは,潜在ディリクレ配分(LDA)により検出されたトピックを文脈とする非対称の類似度である. | |||||||||
| 書誌レコードID | ||||||||||
| 収録物識別子タイプ | NCID | |||||||||
| 収録物識別子 | AN10539261 | |||||||||
| 書誌情報 |
研究報告ドキュメントコミュニケーション(DC) 巻 2021-DC-120, 号 5, p. 1-7, 発行日 2021-03-19 |
|||||||||
| ISSN | ||||||||||
| 収録物識別子タイプ | ISSN | |||||||||
| 収録物識別子 | 2188-8892 | |||||||||
| Notice | ||||||||||
| SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||||
| 出版者 | ||||||||||
| 言語 | ja | |||||||||
| 出版者 | 情報処理学会 | |||||||||