Item type |
SIG Technical Reports(1) |
公開日 |
2016-06-27 |
タイトル |
|
|
タイトル |
可変ピン幅ヒストグラム密度推定法を組み込んだ確率的トピックモデルの提案 |
タイトル |
|
|
言語 |
en |
|
タイトル |
A New Probabilistic Topic Model Based on Variable Bin Width Histogram |
言語 |
|
|
言語 |
jpn |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
日本電信電話株式会社NTTサービスエボリューション研究所 |
著者所属 |
|
|
|
日本電信電話株式会社NTTコミュニケーション科学基礎研究所 |
著者所属 |
|
|
|
日本電信電話株式会社NTTコミュニケーション科学基礎研究所 |
著者所属(英) |
|
|
|
en |
|
|
NTT Service Evolution Laboratories, NTT Corporation |
著者所属(英) |
|
|
|
en |
|
|
NTT Communication Science Laboratory, NTT Corporation |
著者所属(英) |
|
|
|
en |
|
|
NTT Communication Science Laboratory, NTT Corporation |
著者名 |
金, 秀明
岩田, 具治
澤田, 宏
|
著者名(英) |
Hideaki, Kim
Tomoharu, Iwata
Hiroshi, Sawada
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
Latent Dirichlet Allocation に代表される確率的トピックモデルは,単語など離散値のデータだけでなく,単語出現時刻や商品価格など連続値のデータにも適用され,その有効性が示されてきたしかし連続値データを扱う確率的トピックモデルは,効率的なパラメータ推定を担保するため,クラスタ (トピック) を特徴付ける確率密度分布が単純な正規分布などに限定され,クラスタ形成に大きな制限を抱えていた.本研究では,クラスタを特徴付ける確率密度分布をヒストグラム,すなわちノンパラメトリックな区分定常分布により推定する新たな確率的トピックモデルを構築し,その制限を克服する.提案モデルにおけるパラメータ推定は,ヒストグラムのピン幅選択を含め,効率的な collapsed Gibbs sampling に基づき実行される.本稿では,ピン幅が一定および可変の両場合における推定アルゴリズムを導出した後,関連モデルとの比較実験により提案モデルの有効性を確認する. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
Probabilistic topic models, as represented by latent Dirichlet allocation (LDA), have been widely used for analyzing not only categorical but also continuous data such as times of word appearance and price information. In the topic model for continuous data, however, the component distributions needs to be simple exponential families like normal distributions to perform the efficient parameter estimation, which limits the representative power of the model. In this paper, by incorporating the nonparametric histogram density estimator into the topic model, we construct a new probabilistic topic model to overcome the limitation. The estimation of the parameters, including the bin width selection, is performed by using efficient collapsed Gibbs sampling. We derive the estimation algorithms for the regular and variable bin width scenarios. We apply the proposed method to synthetic data, confirming that it performs well. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AA12055912 |
書誌情報 |
研究報告バイオ情報学(BIO)
巻 2016-BIO-46,
号 47,
p. 1-7,
発行日 2016-06-27
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8590 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |