WEKO3
アイテム
Boostingに基づく規則学習における部分候補を用いた高速化手法
https://ipsj.ixsq.nii.ac.jp/records/60511
https://ipsj.ixsq.nii.ac.jp/records/605118ed5c871-0e10-4a89-a1ca-a7a8c92e41d1
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2009 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | Journal(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2009-05-15 | |||||||
タイトル | ||||||||
タイトル | Boostingに基づく規則学習における部分候補を用いた高速化手法 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Fast Boosting-based Rule Learning Using Subsets of Candidates | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | 一般論文 | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_6501 | |||||||
資源タイプ | journal article | |||||||
著者所属 | ||||||||
株式会社富士通研究所 | ||||||||
著者所属 | ||||||||
株式会社富士通研究所 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Fujitsu Laboratories Ltd. | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Fujitsu Laboratories Ltd. | ||||||||
著者名 |
岩倉, 友哉
岡本, 青史
× 岩倉, 友哉 岡本, 青史
|
|||||||
著者名(英) |
Tomoya, Iwakura
Seishi, Okamoto
× Tomoya, Iwakura Seishi, Okamoto
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 本稿では,Boostingに基づく規則学習の高速化手法を提案する.Boostingとは,学習事例の重みを変化させることで,複数の弱仮説を作成し,それらを組み合わせて,最終的な仮説を作成する手法である.Boostingに基づく学習アルゴリズムは,自然言語処理,OCRなどの様々なタスクにおいて高い精度を出せることが示されている.しかし,自然言語処理タスクのように,数十万の異なる素性および学習事例から構成される学習データを扱う場合においては,学習時間が問題となる.本稿では,素性の組合せを規則として学習するBoostingに基づく学習アルゴリズムの高速化のための手法を提案する.まず,素性の組合せで表現される規則候補の生成において,重複なくかつ枝刈りに適した生成方法を提案する.次に,各Boostingラウンドにおいて素性の部分集合から生成される候補を対象に規則を学習する方法を提案する.自然言語処理タスクであるEnglish Syntactic Chunkingおよび日本語係り受け解析において本手法の評価を行った.その結果,本手法により,精度を保持したまま,100倍以上の学習時間の改善が行えることを示せた. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | This paper proposes techniques to improve training speed of boosting-based algorithms for learning rules represented by combination of features. Boosting is a method to crate a final hypothesis by repeatedly generating a weak hypothesis in each training iteration with a given weak learner. Boosting-based algorithms are successfully applied to several tasks such as Natural Language Processing, OCR, and so on. However, learning on the training data consisting of large number of samples and features requires long training time. We propose two techniques for improving training time of boosting based algorithms. The first one is generating candidate rules suited for pruning. The other is limiting search space by distributing features to buckets. Our algorithms repeatedly select a bucket and find a rule from candidate rules generated from the selected bucket. We evaluate our methods with English syntactic chunking and Japanese Dependency Parsing. The experimental results show that our methods improve training time by over 100 times while maintaining competitive accuracy obtained with boosting algorithms without our techniques. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN00116647 | |||||||
書誌情報 |
情報処理学会論文誌 巻 50, 号 5, p. 1477-1492, 発行日 2009-05-15 |
|||||||
ISSN | ||||||||
収録物識別子タイプ | ISSN | |||||||
収録物識別子 | 1882-7764 |