Item type |
SIG Technical Reports(1) |
公開日 |
2015-01-12 |
タイトル |
|
|
タイトル |
テキストストリームからの新エンティティの即時的検出 |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
用語抽出・語義曖昧性解消 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
東京大学 |
著者所属 |
|
|
|
東京大学/現在,情報通信研究機構 |
著者所属 |
|
|
|
東京大学/現在,情報通信研究機構 |
著者所属 |
|
|
|
現在,国立情報学研究所/東京大学 |
著者所属(英) |
|
|
|
en |
|
|
University of Tokyo |
著者所属(英) |
|
|
|
en |
|
|
University of Tokyo / Presently with NICT |
著者所属(英) |
|
|
|
en |
|
|
University of Tokyo / Presently with NICT |
著者所属(英) |
|
|
|
en |
|
|
Presently with NII / University of Tokyo |
著者名 |
槇, 佑馬
吉永, 直樹
鍜治, 伸裕
喜連川, 優
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
Twitter などのテキストストリームには現実世界で次々と生まれる新しいエンティティに関する情報が発信される.そのような膨大な情報を理解するには,エンティティ単位で情報を整理することが有効であるが,そのためには何がエンティティであるかを把握しておくこと,すなわち知識ベースに載っていない新エンティティをできるだけ早期に検出して知識ベースに登録することが重要になる.提案手法では,テキストストリームから未知のエンティティ文字列を検出する手法を,テキストストリームから新エンティティ候補文字列を抽出し,候補文字列に対して新エンティティかどうかを識別するという手順で解くことを提案する.前者のタスクは形態素 n-gram と文字列の出現頻度を手がかりに行い,後者のタスクに関しては品詞などの言語情報を用いて教師有り学習で解く.エンティティ単位で評価を行った結果,適合率が 67.2%,再現率が 77.6%という結果になった. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10115061 |
書誌情報 |
研究報告自然言語処理(NL)
巻 2015-NL-220,
号 4,
p. 1-5,
発行日 2015-01-12
|
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |