2024-03-29T00:07:04Zhttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_oaipmhoai:ipsj.ixsq.nii.ac.jp:000486812023-04-27T10:00:04Z01164:04179:04236:04242
コーパスからの語順の学習Word Order Acquisition from Corporajpnhttp://id.nii.ac.jp/1001/00048681/Technical Reporthttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_action_common_download&item_id=48681&item_no=1&attribute_id=1&file_no=1Copyright (c) 2000 by the Information Processing Society of Japan郵政省通信総合研究所郵政省通信総合研究所郵政省通信総合研究所郵政省通信総合研究所ニューヨーク大学郵政省通信総合研究所内元, 清貴村田, 真樹馬青内山, 将夫関根, 聡井佐原, 均本論文では、日本語の語順の傾向をコーパスから学習する手法を提案する。ここで語順とは係り相互間の語順、つまり同じ文節に係っていく文節の順序関係を意味するものとする。我々が提案する手法では、文節内外に含まれるさまざまな情報から語順の傾向を自動学習するモデルを用いる。このモデルによって、それぞれの情報が語順の決定にどの程度寄与するか、また、どのような情報の組み合わせのときにどのような傾向の語順になるかを推測することができる。個々の情報が語順の決定に寄与する度合は最大エントロピー(ME)法によって効率良く学習される。学習されたモデルの性能は、そのモデルを用いて語順を決めるテストを行ない、元の文における語順とどの程度一致するかを調べることによって定量的に評価することができる。正しい語順の情報はテキスト上に保存されているため、学習コーバスは必ずしもタグ付きである必要はなく、生コーパスを既存の解析システムで解析した結果を用いてもよい。本論文ではこのことを実験によって示す。In this paper we propose a method for acquiring word order from corpora. We define word order as the order of modifiers or the order of bunsetsus which depend on the same modifiee. The method uses a model which automatically discovers what the tendency of the word order in Japanese is by using various kinds of information in and around the target bunsetsus. It shows us to what extent each piece of information contributes to deciding the word order and which word order tends to be selected when several kinds of information conflict. The contribution rate of each piece of information in deciding word order is efficiently learned by a model within a maximum entropy (ME) framework. The performance of the trained model can be evaluated by checking how many instances of word order selected by the model agree with those in the original text. A raw corpus instead of a tagged corpus can be used to train the model, if it is first analyzed by a parser. This is possible because text in the corpus is in the correct word order. In this paper, we show that this is indeed possible.AN10115061情報処理学会研究報告自然言語処理(NL)200011(1999-NL-135)55622000-01-272009-06-30