@techreport{oai:ipsj.ixsq.nii.ac.jp:00210615, author = {岸田, 和明 and 門脇, 夏紀}, issue = {5}, month = {Mar}, note = {Twitter におけるツイートに代表される,いわゆる「短いテキスト」に対して,文書クラスタリングの手法を適用する際には,自動的に語を追加するなどして,その表現を補っておくことが望ましい.これは,この種の短いテキストには十分な数の語が含まれないことから,同義語などの表記のゆれが,悪影響を及ぼす可能性が高いためである.本研究では,この問題に対してクエリ拡張(query expansion)の手法を適用する.その際の語間の類似度の計算には,従来的な類似度シソーラスのほか,翻訳確率の推定法である IBM Model 1 に基づく独自の手法を使う.これは,潜在ディリクレ配分(LDA)により検出されたトピックを文脈とする非対称の類似度である.}, title = {文書クラスタリングへの文脈付きで非対称な単語類似度の応用}, year = {2021} }