@article{oai:ipsj.ixsq.nii.ac.jp:00017586, author = {武智, 峰樹 and 徳永, 健伸 and 松本, 裕治 and 田中, 穂積 and Mineki, Takechi and Takenobu, Tokunaga and Yuji, Matsumoto and Hozumi, Tanaka}, issue = {SIG12(TOD19)}, journal = {情報処理学会論文誌データベース(TOD)}, month = {Sep}, note = {要素技術としての文書分類は,質問応答やWeb ナビゲーションにおける主要な構成要素である.特に表層的なテキストの特徴を主に利用する質問応答では,与えられた質問のタイプに応じて適切な回答候補を抽出できる分類エンジンが重要である.またWeb ナビゲーションにおいては,従来の質問応答が扱ってこなかった質問も扱う必要があり,そのような質問に対しても適切な回答候補を選び出すための分類技術が求められる.本研究は,Web ナビゲーションが扱う質問のうち,特に手順に関する質問を取り上げ,その回答候補の分類に有効な特徴量を明らかにすることを目的とする.その試みとしてWeb ページにおいてHTML のリストタグが付与されたテキストを記事集合として,それを手順について書かれたテキストとそれ以外のテキストに分類するタスクを考える.検索エンジンを用いて箇条書きを収集し,機械学習の一手法であるSupport Vector Machine を用いた文書分類を行い,その結果の観察に基づいて手順について書かれた箇条書きの抽出に有効な特徴量を考察した.N-gram や語の頻度情報をベースにした手法により,コンピュータ分野に関しては90%以上の精度で分類可能な特徴量の組合せを得た., Text categorization is an essential component to allow for efficient navigation techniques and to get query-relevant information on the Web. Especially in the context of Question-Answering, it requires the right features to categorize the documents and to allow for efficient knowledge acquisition according to the types of queries. In the queries addressed in such navigation, we focus on those asking for procedural knowledge and aim at clarifying the specification of the answers. To solve this problem we exploit procedural descriptions in the form of itemized expressions tagged with the HTML list tags. Applying Support Vector Machines to the set of list expressions gathered from WWW by a search engine, we examine the obtained model in order to to find the relevant features for the extraction of an answer that explains relevant procedures. By exploiting the features based on word frequencies, such as N-gram and the sequences of words, we obtained a feature set for a computer domain that can categorize more than 90% in recall and precision.}, pages = {51--63}, title = {WWWページからの手順に関する箇条書きの抽出}, volume = {44}, year = {2003} }