WEKO3
アイテム
日本語テキストの自動分類のための特徴素抽出手法の比較
https://ipsj.ixsq.nii.ac.jp/records/48376
https://ipsj.ixsq.nii.ac.jp/records/48376488948b2-cc42-4cf9-9241-98118de29de9
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2002 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2002-09-17 | |||||||
タイトル | ||||||||
タイトル | 日本語テキストの自動分類のための特徴素抽出手法の比較 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | A Comparison of Feature Extraction for Japanese Text Categorization | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
国立情報学研究所 | ||||||||
著者所属 | ||||||||
国立情報学研究所 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
NII (National Institute of Informatics) | ||||||||
著者所属(英) | ||||||||
en | ||||||||
NII (National Institute of Informatics) | ||||||||
著者名 |
石田, 栄美
× 石田, 栄美
|
|||||||
著者名(英) |
Emi, Ishida
× Emi, Ishida
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 日本語テキストを対象に、自動分類において、分類の手がかりとなる特徴素の抽出手法の分類性能を比較した。本実験では、テキストから特徴素を抽出する手法として、形態素解析を用いて抽出する単語ベースの方法とN-gram によって抽出する文字列ベースの方法をもとにした6つの手法を比較した。その結果、単語ベースの方法に比べ、bigram 、trigram など文字列ベースによる特徴素抽出手法を用いた場合の分類性能が高かった。さらに、分類性能に影響した可能性がある特徴素を定義し、それらの特徴素を文字種ごとに分類した結果、漢字のみからなる特徴素、漢字と助詞の組み合わせ、漢字と記号の組み合わせからなる特徴素の割合が高いことがわかった。 | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | In the present paper we examine the influence of features on the performance of text categorization. There are two types of approaches in the methods for extracting features form Japanese texts. One is to segment texts using morphological analyzer and extract ‘words’. The other is a simple one, to use N-gram. In this experiment, five methods based on these two approaches are examined; (1) word (which is segmented by morphological analyzer), (2)β-unit (which is segmented manually based on some Japanese segmentation rule), (3)unigram, (4) bigram, (5) trigram and (6) 4gram. The categorization result based on (4) was better than those based on (1) and (2). We examined the reason and found the combination of kanji-character and hiragana particle or kanji-character and symbol has some influence. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10115061 | |||||||
書誌情報 |
情報処理学会研究報告自然言語処理(NL) 巻 2002, 号 87(2002-NL-151), p. 81-86, 発行日 2002-09-17 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |