WEKO3
アイテム
WWWから得られるTerm Frequency情報に基づくPLSA言語モデル
https://ipsj.ixsq.nii.ac.jp/records/72660
https://ipsj.ixsq.nii.ac.jp/records/72660a7bf420b-5be8-4593-bc4b-58da8e6b3ca5
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2011 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2011-01-28 | |||||||
タイトル | ||||||||
タイトル | WWWから得られるTerm Frequency情報に基づくPLSA言語モデル | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Improvement of PLSA Language Models for Perplexity Reduction based on the World Wide tfidf Statistics. | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | 音声認識 | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
関西学院大学理工学研究科 | ||||||||
著者所属 | ||||||||
関西学院大学理工学研究科 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
School of Science and Technology, Kwansei Gakuin University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
School of Science and Technology, Kwansei Gakuin University | ||||||||
著者名 |
宮崎, 将隆
× 宮崎, 将隆
|
|||||||
著者名(英) |
Masataka, Miyazaki
× Masataka, Miyazaki
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | PLSAは学習データ内における単語の出現頻度を基にトピックをモデル化する手法である.しかし,話題判定をtfだけで行うより,tfidfで判定した方が効果的であり,パープレキシティ削減も期待できる.そこで,本報告ではWWWから得られるtfidf統計に基づいたPLSA言語モデルについて検討する.このシステムではWWWから1万語の語彙に対して,idf値を計算している.実験の結果,本手法では通常のPLSA言語モデルよりもテストセットパープレキシティを削減することができ,トピック判定が改善されたと考える. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | PLSA (Probabilistic Latent Semantic Analysis) is a method for topic modeling based on the Term Frequency of the word in a training text. However, the tf values in limited data may not be reliable enough to reduce perplexities for speech recognition. This paper describes an improvement of PLSA language model based on the world wide “tfidf” statistics. The system searches for 10,000 vocabulary words in World Wide Web, and calculates general idf values for them. Experiments show that the proposed method effectively achieves accurate topic identification, and reduces the task-set perplexity. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10442647 | |||||||
書誌情報 |
研究報告 音声言語情報処理(SLP) 巻 2011-SLP-85, 号 14, p. 1-5, 発行日 2011-01-28 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |