@techreport{oai:ipsj.ixsq.nii.ac.jp:00047835,
 author = {渡邉, 陽太郎 and 浅原, 正幸 and 松本, 裕治 and Yotaro, Watanabe and Masayuki, Asahara and Yuji, Matsumoto},
 issue = {47(2007-NL-179)},
 month = {May},
 note = {本稿では,Wikipedia 内に出現する固有表現を獲得し,精度よく分類する手法を提案する.Wikipediaの記事に出現するアンカーテキストの単語および句は,リンク先の記事に語釈が記述されている.このWikipedia の特性を用いて,我々は,固有表現の分類問題を固有表現を表すアンカーテキストに対するラベル付与問題として定式化する.まず,アンカーテキストをノードとして定義されるグラフを構成する.次に,グラフにHTML の構造を取り入れるため,HTML のDOM 構造に基づく3 種類のエッジを導入する.このようにして構成したグラフのノードに対するラベル付与を教師あり学習器であるConditional Random Fields (CRFs) を用いて行う.しかし,構成したグラフは閉路を含むため,CRFs の正確な演算を行うことは計算量が大きく困難である.そこで,Tree-based Reparameterization (TRP) を用いて近似的に演算をおこなう手法を導入する.実施した評価実験において,提案手法が2つ組に対するSupport Vector Machines の順次適用による手法と比較して高い精度で固有表現の分類ができたことを報告する., This paper presents a method for categorizing named entities in Wikipedia. In Wikipedia, an anchor text is glossed in a linked HTML text. We formalize named entity categorization as a task of catego-rizing anchor texts with linked HTML texts which glosses a named entity. Using this representation,we introduce a graph structure in which anchor texts are regarded as nodes. In order to incorporate HTML structure on the graph, three types of cliques are de ned based on the HTML DOM structure.We propose a method with Conditional Random Fields (CRFs) to categorize the nodes on the graph.Since the de ned graph include cycles, the exact inference of CRFs is computationally expensive. We introduce an approximate inference method using Tree-based Reparameterization (TRP) to reduce computational cost. Experimental results show that the proposed method outperforms a baseline method that uses Support Vector Machines.},
 title = {HTMLの木構造を利用した条件付確率場による固有表現分類: Wikipedia からのシソーラス半自動構築},
 year = {2007}
}