WEKO3
アイテム
Pitman-Yor 過程に基づく可変長 n-gram 言語モデル
https://ipsj.ixsq.nii.ac.jp/records/47849
https://ipsj.ixsq.nii.ac.jp/records/478498a1602af-128e-49e0-9a0b-023853978de6
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2007 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2007-03-29 | |||||||
タイトル | ||||||||
タイトル | Pitman-Yor 過程に基づく可変長 n-gram 言語モデル | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Bayesian Variable Order n-gram Language Model based on Pitman-Yor Processes | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
ATR 音声言語コミュニケーション研究所 自然言語処理研究室/独立行政法人 情報通信研究機構 | ||||||||
著者所属 | ||||||||
ATR 音声言語コミュニケーション研究所 自然言語処理研究室/独立行政法人 情報通信研究機構 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
ATR Spoken Language Communication Research Laboratories / National Institute of Communications Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
ATR Spoken Language Communication Research Laboratories / National Institute of Communications Technology | ||||||||
著者名 |
持橋, 大地
× 持橋, 大地
|
|||||||
著者名(英) |
Daichi, Mochihashi
× Daichi, Mochihashi
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 本論文では、n-gram 分布の階層的生成モデルである階層 Pitman-Yor 過程を拡張することで、各単語の生まれた隠れた文脈を推定することのできるベイズ言語モデルを提案する。無限の深さをもつ Suffix Tree 上の確率過程を考えることにより、句を確率的に発見し、適切な文脈長を学習する。本手法は言語モデルだけでなく、マルコフモデル一般について、そのオーダーをデータから推定できる可変長生成モデルとなっている。英語および中国語の標準的なコーパスでの実験により、提案法の有効性を確認した。 | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | This paper proposes a variable order n-gram language model by extending a recently proposed model based on hierarchical Pitman-Yor processes. Introducing a stochastic process on an infinite depth suffix tree, we can infer the hidden n-gram context from which each word originated. Experiments on standard large corpora showed validity and efficiency of the proposed model. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10115061 | |||||||
書誌情報 |
情報処理学会研究報告自然言語処理(NL) 巻 2007, 号 35(2007-NL-178), p. 63-70, 発行日 2007-03-29 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |