@article{oai:ipsj.ixsq.nii.ac.jp:00060500,
 author = {中村, 明 and 速水, 悟 and 津田, 裕亮 and 松本, 忠博 and 池田, 尚志 and Akira, Nakamura and Satoru, Hayamizu and Yusuke, Tsuda and Tadahiro, Matsumoto and Takashi, Ikeda},
 issue = {4},
 journal = {情報処理学会論文誌},
 month = {Apr},
 note = {単語間の大域的な依存関係をトピック(話題)としてモデル化する言語モデルの1つであるLDA(Latent Dirichlet Allocation)を複数個統合する方式によって,言語モデルを高精度化・安定化できることを示す.新聞記事コーパスを用いた実験の結果,提案方式では単一のLDAからなる同一規模のモデルと比較して,つねに推定精度が向上・安定化することを確認した.単一LDAでは潜在トピック数<i>C</i> = 100前後を境に性能が低下するのに対し,提案方式では過適応が抑制され,はるかに大きい総トピック数(= 各モデルの潜在トピック数の総和)まで性能が向上し続ける.また提案方式によるunigram確率を用いて<i>N</i>-gram確率(<i>N</i>&ge;2)を補間することにより,trigramのパープレキシティを従来方式より大幅に削減できる.さらに本論文では,提案方式を予測入力に基づくテキスト入力支援(predictive text entry)に応用することを想定し,テキスト入力支援に適した言語モデル評価指標i-PPを提案する.この指標はパープレキシティの拡張であり,任意文字数の読み入力時点における平均単語分岐数を表す.この指標を用いた評価の結果,提案手法では入力読み文字数<i>l</i> = 2の時点まで通常のパープレキシティと同程度にi-PPを削減でき,従来方式よりも高精度に予測候補を絞り込めることが確かめられた., This paper describes a method that improves accuracy and stability of a language model. The method integrates multiple units of LDA (Latent Dirichlet Allocation), which is a probabilistic language model that models long-range dependencies among words as topics. The experiment on news text corpora shows that the proposed method constantly makes its performance more precise and stable, comparing to the single LDA with almost the same number of the model parameters. The perplexity of the method remains decreasing until the total number of latent topics reaches far larger than that of single LDA, whereas the perplexity of the single LDA turns to increase due to overfitting as the number of latent topics is around 100. In particular, the proposed method significantly reduces the trigram perplexity by combining with the topic-dependent unigram probabilities. This paper also proposes a new evaluation measure i-PP suitable for evaluating a language model applied to predictive text entry. This measure, which is an extended perplexity, indicates the average number of word choices when any length of phonetic (hiragana) substring is input. Evaluation with this measure demonstrates that the proposed method decreases i-PP by the same rate as the common perplexity until the substring length <i>l</i> = 2, reducing candidates with higher accuracy than the existing method.},
 pages = {1375--1389},
 title = {複数モデルの統合によるLDAトピックモデルの高精度化とテキスト入力支援への応用},
 volume = {50},
 year = {2009}
}