WEKO3
アイテム
PLSA言語モデルの学習最適化と語彙分割に関する検討
https://ipsj.ixsq.nii.ac.jp/records/56913
https://ipsj.ixsq.nii.ac.jp/records/56913a438bb69-4f00-4009-9908-885fed4dc27d
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2006 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2006-02-04 | |||||||
タイトル | ||||||||
タイトル | PLSA言語モデルの学習最適化と語彙分割に関する検討 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Training optimization and vocabulary division of PLSA language model | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
東北大学大学院工学研究科 | ||||||||
著者所属 | ||||||||
東北大学大学院工学研究科 | ||||||||
著者所属 | ||||||||
東北大学大学院工学研究科 | ||||||||
著者所属 | ||||||||
東北大学大学院工学研究科 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Engineering Tohoku University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Engineering Tohoku University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Engineering Tohoku University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Engineering Tohoku University | ||||||||
著者名 |
栗山, 直人
× 栗山, 直人
|
|||||||
著者名(英) |
Naoto, KURIYAMA
× Naoto, KURIYAMA
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | PLSAは,文章の特徴「話題」を反映した言語モデルを構築する手法である.このPLSA言語モデルの拡張を提案する.前半ではPLSA言語モデルの学習について,既存の複数の方法を比較し,EMアルゴリズムのアニーリングスケジュール最適化についての検討を行う.後半ではPLSA言語モデルを内容語モデルと機能語モデルに分割し,話題(トピック)と話し方(スタイル)を,別々に学習・適応することで従来のPLSA言語モデルよりもより柔軟な言語モデル適応を試みる.その結果学習最適化についてはβを1.0 から特定の値に向けて減少させるアニーリングスケジュールが最適という結果が得られた.内容語・機能語に分割したモデルについてはtrigramに対するPerplexityが従来のPLSA言語モデルの83.90% から82.23% へ改善した. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | PLSA is a method of composing language model which can reflect the global charactetistics of linguistic context as "topic". We propose more extention of PLSA language model. First, we compare the conventional learning methods of PLSA language model, and examine the optimization of EM annealing schedule. As a result, we found that the best method is to reduce β from 1.0 to some special value. Next, we compose a PLSA language model whose vocabulary set is divided, into content words and function words. Then training and adaptation to topic or style are performed separately. In the experiment, we acheived 82.23% perplexity reduction against conventional way 83.90%. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10442647 | |||||||
書誌情報 |
情報処理学会研究報告音声言語情報処理(SLP) 巻 2006, 号 12(2006-SLP-060), p. 37-42, 発行日 2006-02-04 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |