@techreport{oai:ipsj.ixsq.nii.ac.jp:00047821, author = {西村, 純 and 宮崎, 林太郎 and 前田, 直人 and 森, 辰則 and 翁松齢 and 石川, 雄介 and 小林, 寛之 and 田中, 裕也 and 木戸, 冬子 and Jun, NISHIMURA and Rintaro, MIYAZAKI and Naoto, MAEDA and Tatsunori, MORI and Shorei, O and Yusuke, ISHIKAWA and Hiroyuki, KOBAYASHI and Yuya, TANAKA and Fuyuko, KIDO}, issue = {76(2007-NL-180)}, month = {Jul}, note = {本稿では、ネットオークションの出品情報を各種属性により柔軟に検索することを目的として、出品情報文書に多数存在する商品の属性、属性値の情報を、機械学習に基づき自動抽出する手法ついて検討している。まず、出品情報の属性検索の対象とすべき属性について考察した。特に、教師情報となるコーパスを作成する際の注釈者間の判断の揺れが少なく、かつ、利用者が検索の対象として欲する属性を抽出対象とした。また、出品情報における属性や属性値の多様性に対応する手法についても考察した。注釈付きコーパスから抽出器を構成する際に、表層表現を直接素性とすると、学習コーパスに特化した学習結果が得られ、特に商品のカテゴリーが異なる未知の出品情報文書からの属性情報抽出の際に精度の低下を招くと考えられるため、表層表現に直接依存しない新たな素性としてシソーラスの分類情報を用い、どのような効果が得られるか検討した。抽出手法としては、固有表現抽出等で用いられる、文字を単位とするチャンキング手法を採用した。, In order to achieve flexible facetted search for descriptions of exhibits in net auction system, in this paper, we studied automated extraction of attributes and their values, which appear in those descriptions, based on a machine learning technique. First of all, we examined a set of attributes that should be indexed for the facetted search. Especially, we focused on attributes that can be annotated stably by different annotators, and that are needed for search. We also studied a way to deal with the diversity of attributes and values in descriptions of exhibits. When surface expressions are directly used as one of features, the result of learning may be unwillingly over-fitted to training corpora, and consequently the performance of information extraction will be degraded. Therefore, we introduced the category information of a thesaurus, which does not depend on surface expression directly, and examined the effectiveness of the feature. With regard to the extraction method, we adopted a standard character-based chunking method, which are usually used for named entity extraction.}, title = {ネットオークションにおける属性検索のための出品情報文書からの属性抽出}, year = {2007} }