2024-03-29T19:13:03Zhttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_oaipmhoai:ipsj.ixsq.nii.ac.jp:000483772024-03-29T05:26:34Z01164:04179:04222:04224
文献クラスタの概念的特徴づけを用いた文献の自動分類Automated Document Classification based on Conceptual Characterizing of Document Clustersjpnhttp://id.nii.ac.jp/1001/00048377/Technical Reporthttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_action_common_download&item_id=48377&item_no=1&attribute_id=1&file_no=1Copyright (c) 2002 by the Information Processing Society of Japan大分大学知能情報システム工学科大分大学知能情報システム工学科中島, 誠伊藤哲郎大量の電子化された文献の中から必要とするものをうまく取り出すための方策として,文献を内容に応じてクラスタに分類しておくことが重要とされてきた.従来からの自動分類の手法の多くは,文献キーワードの出現頻度をもとに,未分類の文献を既存のクラスタに精度高く分類できるよう方法を求めてきた.しかしながら,望む文献をうまく取り出すには,文献の管理に際し各文献クラスタの内容や他のクラスタとの関連を利用者が容易に理解できる表現が望まれる.この要求に応えるため,ここでは,キーワードをシソーラス等の概念階層中の記述子に置き換え,分類精度の向上に寄与しながら,クラスタの内容を概念的に特徴づける簡潔な表現が得られる自動分類の手法を定式化する.実験を通じて,従来の方法と遜色のない分類精度をより簡潔な表現で得られることを確かめた.The categorization of documents into predefined clusters becomes increasingly important due to the increased availability of documents in digital form. The keyword-based approaches in automated categorization of documents are insufficient in clarifying the contents of the clusters, since the keywords usually have some conceptual relations. We here formulate a document classification method of finding simplified conceptual expressions based on the subject descriptors in a concept hierarchy for characterizing the clusters so as to clarifying the contents of documents in each cluster by keeping the classification accuracy fairly high. The simplification is done by removing the less informative descriptors and by evaluating the changed expressions based on the classification accuracy when any document in the predefined clusters is treated as a new document. The availability of the proposed method was also examined computationally.AN10115061情報処理学会研究報告自然言語処理(NL)200287(2002-NL-151)87942002-09-172009-06-30