WEKO3
アイテム
特徴的部分文字列と共起情報を用いた固有表現の詳細ラベル付与
https://ipsj.ixsq.nii.ac.jp/records/69896
https://ipsj.ixsq.nii.ac.jp/records/69896c783953e-a496-414e-b65b-63a05a05eee4
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2010 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2010-07-15 | |||||||
タイトル | ||||||||
タイトル | 特徴的部分文字列と共起情報を用いた固有表現の詳細ラベル付与 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Named Entity Classification Based on Substring Patterns and Co-occurrence Information | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | 単語共起 | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
日本電信電話株式会社NTTサイバースペース研究所 | ||||||||
著者所属 | ||||||||
日本電信電話株式会社NTTサイバースペース研究所 | ||||||||
著者所属 | ||||||||
日本電信電話株式会社NTTサイバースペース研究所 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
NTT Cyber Space Laboratories, Nippon Telegraph and Telephone Corporation | ||||||||
著者所属(英) | ||||||||
en | ||||||||
NTT Cyber Space Laboratories, Nippon Telegraph and Telephone Corporation | ||||||||
著者所属(英) | ||||||||
en | ||||||||
NTT Cyber Space Laboratories, Nippon Telegraph and Telephone Corporation | ||||||||
著者名 |
小林, のぞみ
× 小林, のぞみ
|
|||||||
著者名(英) |
Nozomi, Kobayashi
× Nozomi, Kobayashi
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 本稿では,固有表現を従来のIREX定義よりも詳細に分類するタスクについて検討する.与えられた固有表現をあらかじめ設定したクラスに分類する問題に焦点をおき,文章中で共起する語および語彙大系のカテゴリ情報と,あるクラスに特徴的な,固有表現を構成する部分文字列を素性とする手法を提案する.この手法をblogおよびWeb新聞中の固有表現を対象として評価し,F値が0.67から0.72に向上することを確認した.また,クラス毎に素性の有効性を調査し,出現頻度の低い語を多く含むクラスで部分文字列素性が有効であり,固有表現の曖昧性が多いクラスで共起情報が有効であることを確認した. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | This paper presents a method for classifying named entities into finer classes than those of the IREX definition, which is a standard for Japanese named entity recognition. This method uses substring patterns and co-occurrence information; words in the text and their categories derived from a thesaurus. The experimental results show that the proposed method improves F-measure to 0.72 from 0.67. Furthermore, our results show that the substring patterns are effective for the classes which have many low-frequent named entities, while the co-occurrence information is effective when the class includes many ambiguous named entities. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10115061 | |||||||
書誌情報 |
研究報告自然言語処理(NL) 巻 2010-NL-197, 号 5, p. 1-6, 発行日 2010-07-15 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |