WEKO3
アイテム
MEによる日本語係り受け解析
https://ipsj.ixsq.nii.ac.jp/records/48800
https://ipsj.ixsq.nii.ac.jp/records/488004d7ef5ac-bd32-4a29-9866-7d4bbc438e9a
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 1998 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 1998-11-05 | |||||||
タイトル | ||||||||
タイトル | MEによる日本語係り受け解析 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Japanese Dependency Structure Analysis based on Maximum Entropy Models | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
郵政省通信総合研究所 | ||||||||
著者所属 | ||||||||
ニューヨーク大学 | ||||||||
著者所属 | ||||||||
郵政省通信総合研究所 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Communications Research Laboratory, M. P. T. | ||||||||
著者所属(英) | ||||||||
en | ||||||||
New York University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Communications Research Laboratory, M. P. T. | ||||||||
著者名 |
内元, 清貴
× 内元, 清貴
|
|||||||
著者名(英) |
Kiyotaka, Uchimoto
× Kiyotaka, Uchimoto
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 本稿ではME(最大エントロピー法)に基づくモデルを利用した統計的日本語係り受け解析手法について述べる。一文全体の係り受け確率は、一文中のそれぞれの係り受けの確率の積から求められると仮定し、それぞれの係り受けの確率はMEによって学習した係り受け確率モデルから計算する。この確率モデルは、学習コーバスから得られる情報を基に、二つの文節が係り受け関係にあるか否かを予測するのに有効な素性を学習することによって得られる。我々が素性として利用する情報は、二つの文節あるいはその文節間に観測される情報、例えば、文節中の表層文字列、品詞、活用形、括弧や句読点の有無、文節間距離およびそれらの組み合わせなどである。本稿では、我々が用いた素性のそれぞれを削除したときの実験結果を示し、どの素性がどの程度係り受け解析の精度向上に貢献するかについて考察する。また、学習コーパスの量と解析精度の関係についても考察する。我々の手法による係り受けの正解率は、一文全体の係り受けを文末から文頭へ向かって決定的に解析した場合、京大コーバスを使用した実験で86.8%と高い精度を示している。 | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | This paper describes an analysis of the dependency structure in Japanese based on the maximum entropy models. Japanese dependency structure is usually represented by the relations between phrasal units called bunsetsu. We assume that the overall dependencies in a sentence can be determined based on the product of probability of each dependency in a sentence. The probabilities of dependencies between bunsetsu's are estimated by a statistical dependency model learned within a maximum entropy framework. This model can be created by learning the useful features to predict the dependency between bunsetsu's from training corpus. We are using information on bunsetsu itself as features, such as, character strings, parts of speech, and inflection types. We are also using information between two bunsetsu's as features, such as existences of brackets or punctuation, and distance between bunsetsu's. We compare the performance of our method with and without each feature and discuss the contribution of each feature. And we discuss the effect of the size of training corpus on the performance of our method. The accuracy of our method on the dependency of bunsetsu's is 86.8 University corpus when we parse a sentence deterministically from its end to the beginning. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10115061 | |||||||
書誌情報 |
情報処理学会研究報告自然言語処理(NL) 巻 1998, 号 99(1998-NL-128), p. 31-38, 発行日 1998-11-05 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |