WEKO3
アイテム
文脈共起ベクトルに基づく大域的言語モデル
https://ipsj.ixsq.nii.ac.jp/records/48617
https://ipsj.ixsq.nii.ac.jp/records/48617f0be2c00-6e61-4561-8acb-fecf2edd4c21
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2000 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2000-09-21 | |||||||
タイトル | ||||||||
タイトル | 文脈共起ベクトルに基づく大域的言語モデル | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Nonlocal Language Modeling based on Context Co - occurrence Vectors | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
京都大学大学院情報学研究科 | ||||||||
著者所属 | ||||||||
京都大学大学院情報学研究科 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Informatics, Kyoto University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Informatics, Kyoto University | ||||||||
著者名 |
黒橋, 禎夫
× 黒橋, 禎夫
|
|||||||
著者名(英) |
Sadao, Kurohashi
× Sadao, Kurohashi
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 本稿では,文脈情報を考慮する大域的言語モデルを提案する.まず,単語・文書行列を圧縮することにより,単語共起ベクトルを作成する.単語共起ベクトルは,共起しやすい語の内積値は大きく,共起しにくい語の内積値は小さいという性質を持つ.文脈中の自立語の単語共起ベクトルの和によって文脈を表現し,これと次に出現しうる単語の単語共起ベクトルとの内積値をもとにして,文脈に対する語の出現のしやすさ,文脈共起確率を計算する.提案する言語モデルは,この文脈共起確率とトライグラムを線形補間したものである.毎日新聞コーパスを用いて実験したところ,トライグラムと比較して,テストセットパープレキシティが全体で5.0%,自立語に関して27.2%減少した. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | This paper presents a novel nonlocal language model which utilizes contextual inrormation. A reduced vector space model calculated from co-occurrences of word pairs provides word co-occurrence vectors. The sum of word co-occurrence vectors represents the context of a text, and the cosine similarity between the context vector and the word co-occurrence vectors represents the long-distance lexical dependencies. Experiments on the Mainichi Newspaper corpus show significant improvement in perplexity(5.0% overall and 27.2% on target vocabulary). | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10115061 | |||||||
書誌情報 |
情報処理学会研究報告自然言語処理(NL) 巻 2000, 号 86(2000-NL-139), p. 77-83, 発行日 2000-09-21 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |