WEKO3
アイテム
確率文脈自由文法及びその拡張文法の高速EM学習法
https://ipsj.ixsq.nii.ac.jp/records/48618
https://ipsj.ixsq.nii.ac.jp/records/486184ea52754-df8a-4e1c-84ba-b17afc7f00ee
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2000 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2000-09-21 | |||||||
タイトル | ||||||||
タイトル | 確率文脈自由文法及びその拡張文法の高速EM学習法 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Efficient EM learning of probabilistic CFGs and their extentions | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
東京工業大学大学院情報理工学研究科計算工学専攻 | ||||||||
著者所属 | ||||||||
東京工業大学大学院情報理工学研究科計算工学専攻 | ||||||||
著者所属 | ||||||||
東京工業大学大学院情報理工学研究科計算工学専攻 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Department of Computer Science, Graduate School of Information Science and Engeneering, Tokyo Institute of Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Department of Computer Science, Graduate School of Information Science and Engeneering, Tokyo Institute of Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Department of Computer Science, Graduate School of Information Science and Engeneering, Tokyo Institute of Technology | ||||||||
著者名 |
森, 高志
× 森, 高志
|
|||||||
著者名(英) |
Takashi, Mori
× Takashi, Mori
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 現在,統計的な言語モデルの一クラスとして,確率文脈自由文法(PCFG)が知られている.PCFGのEM学習法としてInside-Outside(I-0)アルゴリズムがあるが,計算速度に問題があることが知られている.本報告では,事前にCFGの骨格を与えることで,効率的にPCFGの確率パラメータのEM学習を行う手法を提案する.提案手法では,WFST(well-formed substring table)の部分構文木を支持グラフと呼ばれる構造に変換し,その上でグラフィカルEMアルゴリズムを走らせ学習パラメータを得る.支持グラフはWFSTにおける部分木共有を保存し,また入力文に対して構文木を構成する要素だけを持つため,提案手法は高速な学習が期待できる.また,本手法をPCFGに文脈を加えたモデルに拡張することも可能である.我々はATRコーパスと人手で作られた日本語文法を用いて実験を行なった.学習速度の比較実験では,I-0アルゴリズムと比べ,訓練時間の大幅な短縮が確認された. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | Probabilistic context-free grammars(PCFGs) are widely-known as a class of statistical language models. It is also known that the Inside-Outside(I-0) algorithm(an EM algorithm tailored for PCFGs) requires much computational cost. In this report, we present a new framework for efficient EM learning for PCFGs, assuming that CFG skeleton is given in advance. In this framework, we first generate a support graph with partial parse trees in the WFST(well-formed substring table), and then run the graphical EM algorithm on the graph. Taking each advantage of Fujisaki et al.'s algorithm and the I-O algorithm, high-speed learning is expected. This framework is also applicable for various extensions of PCFGs which include context dependencies. We have conducted an experiment with the ATR corpus and a hand-crafted Japanese grammar, and the results show that, in comparison with I-O algorithm, our new framework has achieved drastic improvement in efficiency. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10115061 | |||||||
書誌情報 |
情報処理学会研究報告自然言語処理(NL) 巻 2000, 号 86(2000-NL-139), p. 85-92, 発行日 2000-09-21 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |