WEKO3
アイテム
接続の方向性を考慮した 多重クラス複合N - gram言語モデル
https://ipsj.ixsq.nii.ac.jp/records/57644
https://ipsj.ixsq.nii.ac.jp/records/57644612d23e8-ef98-429a-a1fc-e2b673e8478c
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 1998 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 1998-12-10 | |||||||
タイトル | ||||||||
タイトル | 接続の方向性を考慮した 多重クラス複合N - gram言語モデル | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | MULTI CLASS COMPOSITE N - GRAM LANGUAGE MODEL BASED ON CONNECTION DIRECTION | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
(株)ATR音声翻訳通信研究所 | ||||||||
著者所属 | ||||||||
(株)ATR音声翻訳通信研究所 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
ATR Interpreting Telecommunications Res. Labs. | ||||||||
著者所属(英) | ||||||||
en | ||||||||
ATR Interpreting Telecommunications Res. Labs. | ||||||||
著者名 |
山本, 博史
× 山本, 博史
|
|||||||
著者名(英) |
Hirofumi, Yamamoto
× Hirofumi, Yamamoto
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | クラス2-gramにおける効率的なクラス分類を実際のコーパスから統計的に行うための手法を提案する。本手法では直前および、直後の単語への接続性を別の属性としてとらえ、各単語に対してその属性ごとに複数のクラスを割り当てる。これらのクラスは前後に接続している単語の分布に基づいて各々独立に作成されることによって、効率的でかつ信頼性の高いクラス分類となっている。さらにこの多重クラス2-gramを結合単語との多重複合N-gramに拡張することにより、千分の一以下の論理パラメーターサイズでパープレキシティ、単語認識率とも単語N-gramを上回る性能を示した。 | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | A new word-clustering technique is proposed to efficiently build statistically salient class 2-grams from language corpora. By splitting word neighboring characteristics into word-preceding and following directions, multiple (two-dimensional) word classes are assigned to each word. In each side, word classes are merged into larger clusters independently according to preceding of following word distributions. This word-clustering can provide more efficient and statistically reliable word clusters. Further, we extend it to Multi-Class Composite N-gram that unit is Multi-Class 2-gram and joined word. Multi-Class Composite N-gram showed better performance both in perplexity and recognition rates with one thousandth smaller logical parameter size than conventional word 2-grams. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10442647 | |||||||
書誌情報 |
情報処理学会研究報告音声言語情報処理(SLP) 巻 1998, 号 114(1998-SLP-024), p. 49-54, 発行日 1998-12-10 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |