WEKO3
アイテム
文脈適応による複数N - gramの動的補間を用いた言語モデル
https://ipsj.ixsq.nii.ac.jp/records/57239
https://ipsj.ixsq.nii.ac.jp/records/572399f8a997f-57f4-4430-b88b-8ee2d3eeb296
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2003 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2003-05-27 | |||||||
タイトル | ||||||||
タイトル | 文脈適応による複数N - gramの動的補間を用いた言語モデル | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | A Language Model with Context Adaptability by Adaptive Interpolation of Sub N - gram Models | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
東京大学大学院情報理工学系研究科 | ||||||||
著者所属 | ||||||||
東京大学大学院情報理工学系研究科 | ||||||||
著者所属 | ||||||||
東京大学大学院新領域創成科学研究科 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Information Science and Technology, University of Tokyo | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Information Science and Technology, University of Tokyo | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Frontier Sciences, University of Tokyo | ||||||||
著者名 |
高橋, 力矢
× 高橋, 力矢
|
|||||||
著者名(英) |
Rikiya, Takahashi
× Rikiya, Takahashi
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 本稿では、複数のN-gramを文脈適応により動的補間する言語モデルを提案する。提案モデル内の個々のサブN-gramはそれぞれ異なる特定トピックの言語モデルである方が、全体性能が高くなる。このような特定トピックの言語モデルの構築にはテキストのクラスタリングが必要であるが、我々はクラスタリングを用いないモデル学習アルゴリズムを提案する。提案アルゴリズムは、文単位でトピックへの所属確率を与えることで、構築された言語モデルによる学習データのエントロピーを最小化する。その結果、タグによる記事分類を基にした補間モデルよりも提案手法で学習した言語モデルの方が性能が高いことが示された。またオープンデータに対して、提案モデルはベースラインのN-gramよりもunigram補間モデルで12.7%、bigram補間モデルで4.3%、補正パープレキシティが低下した。 | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | This paper proposes a new language model (LM) implemented by adaptively cotrolling a mixture of sub N-gram models. The total performance of the proposed LM is higher when each sub N-gram model is topic-specific. Such topic-specific LMs generally need a text-clustering method but we propose a training algorithm without using a text-clustering method. The proposed training algorithm gives the topic-belonging-probabilities to each sentence in the training text, and minimizes the entropy of the training data calcurated by the built LM. In our experiment, the LMs built by the proposed training algorithm are better performed than the LMs built by manually using the topic tag. The adjusted perplexity of the open data, by the proposed LMs, is lower than that by the traditional N-gram models. The decrease score is 12.7% in the unigram interpolation, and 4.3% in the bigram interpolation. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10442647 | |||||||
書誌情報 |
情報処理学会研究報告音声言語情報処理(SLP) 巻 2003, 号 58(2003-SLP-046), p. 37-42, 発行日 2003-05-27 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |