WEKO3
アイテム
Web上の人名検索結果の同姓同名問題における二段階クラスタリングを用いた再現率向上
https://ipsj.ixsq.nii.ac.jp/records/62572
https://ipsj.ixsq.nii.ac.jp/records/6257230ea7d27-ed2a-4f5b-918c-04d8ba380050
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2009 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2009-07-21 | |||||||
タイトル | ||||||||
タイトル | Web上の人名検索結果の同姓同名問題における二段階クラスタリングを用いた再現率向上 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Improvement Recall of Person Name Disambiguation on the Web People Search by TwoStage Clustering | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | クラスタリング | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
東京大学大学院情報理工学系研究科 | ||||||||
著者所属 | ||||||||
東京大学大学院情報理工学系研究科 | ||||||||
著者所属 | ||||||||
東京大学大学院情報理工学系研究科 | ||||||||
著者所属 | ||||||||
東京大学情報基盤センター | ||||||||
著者所属 | ||||||||
東京大学情報基盤センター | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Information Science and Technology, The University of Tokyo | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Information Science and Technology, The University of Tokyo | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Information Science and Technology, The University of Tokyo | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Information Technology Center, The University of Tokyo | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Information Technology Center, The University of Tokyo | ||||||||
著者名 |
池田, 雅紀
小野, 真吾
佐藤, 一誠
吉田, 稔
中川, 裕志
× 池田, 雅紀 小野, 真吾 佐藤, 一誠 吉田, 稔 中川, 裕志
|
|||||||
著者名(英) |
Masaki, Ikeda
Shingo, Ono
Issei, Sato
Minoru, Yoshida
Hiroshi, Nakagawa
× Masaki, Ikeda Shingo, Ono Issei, Sato Minoru, Yoshida Hiroshi, Nakagawa
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 教師なし学習によるクラスタリングに対して,半教師有り学習を適用する手法について提案する.クラスターの評価基準において,結果のクラスターにおける正解データの割合を表す適合率と正解データが結果のクラスターに含まれている割合を表す再現率が存在する.従来研究において,素性の種類を限定することによって特に高い適合率を持つクラスターを生成することが可能になった.これらの素性は疎であり,再現率を向上させることは困難である.一方,素性の中には,人物を識別する能力は弱いが,文書に含まれている数の多い素性が存在する.我々は半教師有り学習を適合率の高いクラスターに対して適用し,クラスターの再現率の向上させることを提案する.本研究では,ブートストラップ法として知られている Espresso を応用し,人名曖昧解消における半教師有り学習として用いる. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | This research proposes the application of semi-supervised learning to unsu- pervsed clustering. There are two criteria of cluster evaluation, or precision and recall. Precision is the ratio of true datas in the result cluster and recall is the ratio of true datas the result cluster has to all true data. In previous work, the selection of feature types enables to make high precision clusters, but these fea- tures are too sparse to imporve recall. On the otherhand, there are features that has poor discrimination capacity but are thick in the documents. We suggest to applicate semi-supervised learning to these high precision clusters and advance clusters' recall. In this research, we use Espresso that is bootstrap method in the information extraction for person name disambiguation as semi-supervised learning method. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10114171 | |||||||
書誌情報 |
研究報告情報学基礎(FI) 巻 2009-FI-95, 号 6, p. 1-8, 発行日 2009-07-21 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |