WEKO3
アイテム
HPSG Supertagging の精度向上のための単語クラスタリング
https://ipsj.ixsq.nii.ac.jp/records/62290
https://ipsj.ixsq.nii.ac.jp/records/62290fbf6272d-013d-4282-8d39-62ab7b4f78ec
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2009 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2009-05-14 | |||||||
タイトル | ||||||||
タイトル | HPSG Supertagging の精度向上のための単語クラスタリング | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Word Clustering for HPSG Superatagging | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
東京大学大学院情報理工学系研究科コンピュータ科学専攻 | ||||||||
著者所属 | ||||||||
東京大学大学院情報理工学系研究科コンピュータ科学専攻 | ||||||||
著者所属 | ||||||||
東京大学大学院情報理工学系研究科コンピュータ科学専攻 | ||||||||
著者所属 | ||||||||
東京大学大学院情報理工学系研究科コンピュータ科学専攻,マンチェスター大学情報学研究科,英国国立テキストマニングセンター | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Department of Computer Science, University of Tokyo | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Department of Computer Science, University of Tokyo | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Department of Computer Science, University of Tokyo | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Department of Computer Science, University of Tokyo,School of Computer Science, University of Manchester,National Center for Text Mining | ||||||||
著者名 |
吉澤, 智也
× 吉澤, 智也
|
|||||||
著者名(英) |
Tomonari, Yoshizawa
× Tomonari, Yoshizawa
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | HPSG 構文解析における supertagging の精度を向上させることを目的として,単語クラスタリングの結果を利用した.Supertagging とは、一つの単語に割り当てられうる語彙項目の候補を確率モデルを用いて削減する方法である.一方で,supertagging は構文解析の速度と精度を向上させるものの,間違った候補削減によって致命的な構文解析のエラーを引き起こしてしまうことがある.低頻度語に関するデータの少なさ (スパース性) は前述の致命的なエラーの原因となりうる.我々は大規模コーパスに対して Brown らの単語クラスタリングを実行し,得られるクラスタのビット列を supertagging への新たな素性として導入した.単語クラスタ情報は,単語のスパース性を軽減すると考えられる.Penn Treebank を用いた実験により精度を検証したが,精度向上はみられなかった.本稿ではその原因についての分析・考察を行う. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | This paper is aimed at increasing the accuracy of supertagging for a Head-Driven Phrase Structure Grammar (HPSG) parser, using class features induced from word clustering. Supertagging is a technique to eliminate possible candidates of lexical entries to a word by using a probabilistic model before parsing. Although supertagging improves the speed and accuracy of HPSG parsers, a wrong elimination of lexical entries can cause fatal errors in HPSG parsing. The sparseness of infrequent words is possibly related to these mistakes. Since previous supertaggers use simple N-grams of part-of-speech tags and words as features, examples of infrequent words are not sufficient to estimate a probabilistic model. We applied Brown's word clustering algorithm to BLIPP corpus and introduced new features with the result of clustering in a probabilistic model of a supertagger. In our experiments using the Penn Treebank, word clustering does not improve our supertagger. This paper presents our analysis of the reason for this observation. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10115061 | |||||||
書誌情報 |
研究報告自然言語処理(NL) 巻 2009-NL-191, 号 6, p. 1-7, 発行日 2009-05-14 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |