WEKO3
アイテム
コーパスに基づく有限状態文法の状態遷移図の自動獲得
https://ipsj.ixsq.nii.ac.jp/records/12382
https://ipsj.ixsq.nii.ac.jp/records/12382332d47ca-745e-404e-89e5-f96d915e7771
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2000 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | Journal(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2000-03-15 | |||||||
タイトル | ||||||||
タイトル | コーパスに基づく有限状態文法の状態遷移図の自動獲得 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | A Method for Automatic Acquisition of the State Diagram of a Finite State Grammar from a Text Corpus | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | 論文 | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_6501 | |||||||
資源タイプ | journal article | |||||||
その他タイトル | ||||||||
その他のタイトル | 知識処理 | |||||||
著者所属 | ||||||||
東京理科大学基礎工学部 | ||||||||
著者所属 | ||||||||
東京理科大学基礎工学部/現在,株式会社東芝青梅工場コンピュータマルチメディア設計部 | ||||||||
著者所属 | ||||||||
東京理科大学基礎工学部 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Faculty of Industrial Science and Technology, Science University of Tokyo | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Faculty of Industrial Science and Technology, Science University of Tokyo/Presently with Computer Multimedia Design, Ome Works, Toshiba Corporation | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Faculty of Industrial Science and Technology, Science University of Tokyo | ||||||||
著者名 |
阿部, 賢司
× 阿部, 賢司
|
|||||||
著者名(英) |
Kenji, Abe
× Kenji, Abe
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 有限状態オートマトンは自然言語の文法規則を状態遷移図上で近似的に記述するのに適しており,文解析に広く用いられている.しかし,多種多様な文を効率良く処理するための状態遷移図を人間が完全に記述するのはきわめて困難である.本稿は,このような見地から,文解析への適用を目的とした有限状態文法の状態遷移図をコーパスから自動的に獲得する方法を提案するものである.この方法では,まず,状態遷移図の状態数をあらかじめ定め,コーパスに基づいてランダムな状態遷移図を作成する.次に,それを条件つきエントロピーに着目して評価し,シミュレーテッド・アニーリング法を用いて条件つきエントロピーが最小となるよう状態割当を変更する.この方法に従って獲得した状態遷移図,および,それと同じコーパスから求めた形態素バイグラムを,(1)形態素バイグラムのみを用いる方法,(2)状態遷移図のみを用いる方法,(3)状態遷移図を用いる方法で,条件つき確率が0となる場合に形態素バイグラムを併用して探索を継続する方法,(4)状態遷移図のみを用いる方法で,条件つき確率が0となる場合に機能上類似する経路を追加し,状態遷移図を拡張して探索を継続する方法,の4つの方法に従って形態素解析に適用し,獲得した状態遷移図を文解析に適用したときの有効性を検証した結果,方法(4)が最も効果的であり,それ以降は,(3),(2),(1)の順となることを確認した.また,この結果から,獲得方法が妥当であることを確認した. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | Finite state automata are widely used in text analysis since they can approximate the grammars of natural languages. It is, however, quite difficult for humans to constructthe complete state diagram of an automaton that can process a large amount of text data efficiently. The present paper proposes a procedure for automatic acquisition of thestate diagram from a text corpus, with an aim to apply it to text analysis. In this procedure, the number of states is given in advance, and an initial state diagram is constructed at random. The diagram is then evaluated in terms of the conditional entropy,and state assignment is iteratively modified by the method of simulated annealing until the conditional entropy reaches a minimum. In order to compare the performances of methods based on the acquired state diagram with that of a method based on bigrams,experiments on morpheme analysis of sentences from a corpus of weather forecasts were conducted using the following four methods: (1) morpheme bigrams, (2) state diagram only,(3) state diagram supplemented by morpheme bigrams, and (4) expanded state diagram. The results indicate that the four methods are generally ranked in the order of (4) - (3) - (2) - (1), thus confirming the validity of the proposed methods based on state diagramacquisition. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN00116647 | |||||||
書誌情報 |
情報処理学会論文誌 巻 41, 号 3, p. 677-688, 発行日 2000-03-15 |
|||||||
ISSN | ||||||||
収録物識別子タイプ | ISSN | |||||||
収録物識別子 | 1882-7764 |