ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 論文誌(ジャーナル)
  2. Vol.41
  3. No.4

Support Vector Machineによるテキスト分類における属性選択

https://ipsj.ixsq.nii.ac.jp/records/12353
https://ipsj.ixsq.nii.ac.jp/records/12353
96bcbcce-ea57-4b71-8384-09e42ed7f94b
名前 / ファイル ライセンス アクション
IPSJ-JNL4104033.pdf IPSJ-JNL4104033.pdf (293.4 kB)
Copyright (c) 2000 by the Information Processing Society of Japan
オープンアクセス
Item type Journal(1)
公開日 2000-04-15
タイトル
タイトル Support Vector Machineによるテキスト分類における属性選択
タイトル
言語 en
タイトル Feature Selection in SVM Text Categorization
言語
言語 jpn
キーワード
主題Scheme Other
主題 論文
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_6501
資源タイプ journal article
その他タイトル
その他のタイトル メディア情報処理
著者所属
NTTコミュニケーション科学基礎研究所
著者所属
ATR人間情報通信研究所
著者所属(英)
en
NTT Communication Science Laboratories
著者所属(英)
en
ATR Human Information Processing Research Laboratories
著者名 平, 博順 春野, 雅彦

× 平, 博順 春野, 雅彦

平, 博順
春野, 雅彦

Search repository
著者名(英) Hirotoshi, Taira Masahiko, Haruno

× Hirotoshi, Taira Masahiko, Haruno

en Hirotoshi, Taira
Masahiko, Haruno

Search repository
論文抄録
内容記述タイプ Other
内容記述 本論文ではSupport Vector Machine(SVM)を使ったテキスト分類における属性選択手法について述べる.我々は最適な属性選択を調べるため相互情報量を基準とした属性選択と品詞を基準とした属性選択を比較した.前者の実験では相互情報量の大きい単語を順に追加して属性を増やし,後者の実験では普通名詞のみの単語属性から始めて固有名詞,サ変名詞,未定義語,動詞を追加して属性を増やした.その結果,1)最適な属性数はカテゴリごとに異なるが,2)平均すると品詞基準の属性選択で普通名詞,固有名詞,サ変名詞,未定義語,動詞の5品詞の単語をすべて使用したときに最高の精度が得られた.この結果からSVMの汎化能力は非常に高く,高い分類精度を得るためには品詞によるフィルタリングという単純な処理のみを行い,後は全単語を入力として用いればよいことが明らかになった.
論文抄録(英)
内容記述タイプ Other
内容記述 This paper investigates the effect of prior feature selection in Support Vector Machine (SVM) text categorization. The input space was gradually increased by using mutual information (MI) filtering and part-of-speech (POS) filtering, which determine the portion of words that are appropriate for SVM learning from the information-theoretic and the linguistic perspectives, respectively. The experimental results are that 1) the optimal number of features differed completely across categories, and 2) the average performance for all categories was best when all of the words were used. In addition, a comparison of the two experiments clarified that POS filtering consistently outperformed MI filtering, which indicates that SVMs cannot find irrelevant parts of speech. These results suggest a simple strategy for using a full number of words found through a rough filtering technique like part-of-speech tagging.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AN00116647
書誌情報 情報処理学会論文誌

巻 41, 号 4, p. 1113-1123, 発行日 2000-04-15
ISSN
収録物識別子タイプ ISSN
収録物識別子 1882-7764
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-23 01:41:34.763202
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3