WEKO3
アイテム
ネットオークションにおける属性検索のための出品情報文書からの属性抽出
https://ipsj.ixsq.nii.ac.jp/records/47821
https://ipsj.ixsq.nii.ac.jp/records/4782159302f62-0886-4650-8da2-59764e5f52bc
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2007 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2007-07-25 | |||||||
タイトル | ||||||||
タイトル | ネットオークションにおける属性検索のための出品情報文書からの属性抽出 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Attribute-value extraction from description of exhibits for facetted search in net auction system | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
横浜国立大学大学院環境情報学府 | ||||||||
著者所属 | ||||||||
横浜国立大学大学院環境情報学府 | ||||||||
著者所属 | ||||||||
横浜国立大学大学院環境情報学府 | ||||||||
著者所属 | ||||||||
横浜国立大学大学院環境情報学府 | ||||||||
著者所属 | ||||||||
ヤフー株式会社 | ||||||||
著者所属 | ||||||||
ヤフー株式会社 | ||||||||
著者所属 | ||||||||
ヤフー株式会社 | ||||||||
著者所属 | ||||||||
ヤフー株式会社 | ||||||||
著者所属 | ||||||||
ヤフー株式会社 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Yokohama National University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Yokohama National University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Yokohama National University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Yokohama National University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Yahoo Japan Corporation | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Yahoo Japan Corporation | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Yahoo Japan Corporation | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Yahoo Japan Corporation | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Yahoo Japan Corporation | ||||||||
著者名 |
西村, 純
× 西村, 純
|
|||||||
著者名(英) |
Jun, NISHIMURA
× Jun, NISHIMURA
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 本稿では、ネットオークションの出品情報を各種属性により柔軟に検索することを目的として、出品情報文書に多数存在する商品の属性、属性値の情報を、機械学習に基づき自動抽出する手法ついて検討している。まず、出品情報の属性検索の対象とすべき属性について考察した。特に、教師情報となるコーパスを作成する際の注釈者間の判断の揺れが少なく、かつ、利用者が検索の対象として欲する属性を抽出対象とした。また、出品情報における属性や属性値の多様性に対応する手法についても考察した。注釈付きコーパスから抽出器を構成する際に、表層表現を直接素性とすると、学習コーパスに特化した学習結果が得られ、特に商品のカテゴリーが異なる未知の出品情報文書からの属性情報抽出の際に精度の低下を招くと考えられるため、表層表現に直接依存しない新たな素性としてシソーラスの分類情報を用い、どのような効果が得られるか検討した。抽出手法としては、固有表現抽出等で用いられる、文字を単位とするチャンキング手法を採用した。 | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | In order to achieve flexible facetted search for descriptions of exhibits in net auction system, in this paper, we studied automated extraction of attributes and their values, which appear in those descriptions, based on a machine learning technique. First of all, we examined a set of attributes that should be indexed for the facetted search. Especially, we focused on attributes that can be annotated stably by different annotators, and that are needed for search. We also studied a way to deal with the diversity of attributes and values in descriptions of exhibits. When surface expressions are directly used as one of features, the result of learning may be unwillingly over-fitted to training corpora, and consequently the performance of information extraction will be degraded. Therefore, we introduced the category information of a thesaurus, which does not depend on surface expression directly, and examined the effectiveness of the feature. With regard to the extraction method, we adopted a standard character-based chunking method, which are usually used for named entity extraction. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10115061 | |||||||
書誌情報 |
情報処理学会研究報告自然言語処理(NL) 巻 2007, 号 76(2007-NL-180), p. 157-162, 発行日 2007-07-25 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |