@techreport{oai:ipsj.ixsq.nii.ac.jp:00048117, author = {賀沢, 秀人 and 泉谷知範 and 平, 博順 and 前田, 英作 and Hideto, Kazawa and Tomonori, Izumitani and Hirotoshi, Taira and Eisaku, Maeda}, issue = {93(2004-NL-163)}, month = {Sep}, note = {本論文では,与えられたトピック集合の中から文書が該当するトピックを全て選びだす多重トピック文書の自動分類にたいして,最大マージンラベリング法と呼ぶ新しい学習手法を提案する.文書多重ラベリングにおいては,トピックの任意の組合せ(ラベル)を独立したクラスとみなした多クラス分類学習を行うことにより,より精度の高いラベリングが実現できると期待される.しかし,文書分類に代表される多重ラベリングの実問題においては,ラベルあたりのサンプル数の減少にともなう過学習が問題となり,こうした試みは実際にはなされてこなかった.提案手法では,各ラベルを高次元空間に埋め込んだ後にその空間でのマージンを最大化することにより,過学習を押え精度の良い多重ラベリングを実現する. 実際に,Web文書の文書多重ラベリングを対象として,Parametric Mixture Model BoosTexter,SVM 最近傍法といった様々な種類の従来手法との比較実験をおこない,提案手法がより高精度なラベリングをより少ない訓練データで実現できることを実証した., In this paper, we address the problem of learining in multi-category document labeling. The goal of multi-category document labeling is to assign a document all the relevant categories from a given category set. The proposed learning method, Maximal Margin Labeling (MML), treats multi-category labels, as well as single-category labels, as independent classes and learns a kind of multi-class classifier on the multi-class problem. Since the number of multi-category labels are quite large in general, data sparseness becomes a serious challenge to MML. Thus we utilize a maximal margin principle in a high-dimensional space, into which all possible labels are embedded, to avoid over-fitting. MML is compared with other labeling methods, Parametric Mixture Model, BoosTexter, Support Vector Machines, and k nearest neighbors, using a collection of multi-category labeled Web pages. The results show that MML outperforms other methods and its high performace is apparent even with a small number of training samples.}, title = {最大マージン原理にもとづく多重トピック文書の自動分類}, year = {2004} }