WEKO3
アイテム
大容量テキストのn-gram統計とその応用の検討
https://ipsj.ixsq.nii.ac.jp/records/125605
https://ipsj.ixsq.nii.ac.jp/records/125605dfe17e80-771a-4c9d-b1a3-76a75ac72c99
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
|
Item type | National Convention(1) | |||||
---|---|---|---|---|---|---|
公開日 | 1994-03-07 | |||||
タイトル | ||||||
タイトル | 大容量テキストのn-gram統計とその応用の検討 | |||||
タイトル | ||||||
言語 | en | |||||
タイトル | A study on n-gram statistics of large text and its application | |||||
言語 | ||||||
言語 | jpn | |||||
資源タイプ | ||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_5794 | |||||
資源タイプ | conference paper | |||||
著者所属 | ||||||
RWCP新機能三菱研究室 | ||||||
著者所属(英) | ||||||
en | ||||||
Real World Computing Partnership Novel Functions Mitsubishi Laboratory | ||||||
論文抄録 | ||||||
内容記述タイプ | Other | |||||
内容記述 | 様々なソースから流入するリアルタイム情報の自然言語処理方法が問題になっている。リアルタイム情報は、情報サイクルが短く、語彙が経時的に増大するため、従来主流であった辞書やルールベースを利用した自然言語処理モデルでは、対応が困難である。そこで近年、統計情報を利用した自然言語処理モデルが注目されている。自然言語処理に対し統計情報を利用するモデルは、従来からも音声認識などでは成功を収めていたが、日本語テキストでは使用される文字種が多いため、適用は困難視されていた。しかし、近年の計算機の進歩により、日本語に関しても、統計的に十分大きな量のテキストから統計情報を求めることが、可能になってきている。だが、現時点では、統計情報の利用に際し「どの統計量が有効なのか」「標本とするテキストの量はどの程度必要なのか」に対する検討は十分行なわれてはいない。そこで、筆者は、数万件の新聞記事に対しn-gram統計をとり、上の問題を考察したので以下に報告する。 | |||||
書誌レコードID | ||||||
収録物識別子タイプ | NCID | |||||
収録物識別子 | AN00349328 | |||||
書誌情報 |
全国大会講演論文集 巻 第48回, 号 ソフトウェア, p. 153-154, 発行日 1994-03-07 |
|||||
出版者 | ||||||
言語 | ja | |||||
出版者 | 情報処理学会 |