WEKO3
アイテム
ブートストラップ式同位語辞書構築における検索効率の向上
https://ipsj.ixsq.nii.ac.jp/records/17391
https://ipsj.ixsq.nii.ac.jp/records/17391e2c42127-2e99-45ab-b13c-7208692068c1
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2008 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | Trans(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2008-06-26 | |||||||
タイトル | ||||||||
タイトル | ブートストラップ式同位語辞書構築における検索効率の向上 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Cost-effective Search Strategy for Bootstrapping Lexicon Acquisition | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | 研究論文 | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_6501 | |||||||
資源タイプ | journal article | |||||||
著者所属 | ||||||||
NEC C&Cイノベーション研究所 | ||||||||
著者所属 | ||||||||
NEC共通基盤ソフトウェア研究所 | ||||||||
著者所属 | ||||||||
NEC共通基盤ソフトウェア研究所 | ||||||||
著者所属 | ||||||||
NEC C&Cイノベーション研究所 | ||||||||
著者所属 | ||||||||
NEC C&Cイノベーション研究所 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
NEC C&C Innovation Research Laboratories | ||||||||
著者所属(英) | ||||||||
en | ||||||||
NEC Common Platform Software Research Laboratories | ||||||||
著者所属(英) | ||||||||
en | ||||||||
NEC Common Platform Software Research Laboratories | ||||||||
著者所属(英) | ||||||||
en | ||||||||
NEC C&C Innovation Research Laboratories | ||||||||
著者所属(英) | ||||||||
en | ||||||||
NEC C&C Innovation Research Laboratories | ||||||||
著者名 |
河合, 英紀
水口, 弘紀
土田, 正明
國枝, 和雄
山田, 敬嗣
× 河合, 英紀 水口, 弘紀 土田, 正明 國枝, 和雄 山田, 敬嗣
|
|||||||
著者名(英) |
Hideki, Kawai
Hironori, Mizuguchi
Masaaki, Tsuchida
Kazuo, Kunieda
Keiji, Yamada
× Hideki, Kawai Hironori, Mizuguchi Masaaki, Tsuchida Kazuo, Kunieda Keiji, Yamada
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 本稿では,同一の意味的階層に属する単語集合(同位語辞書)を高い検索効率でWebから抽出する方法を提案する.近年,Web 上に散在した知識を収集するアプローチの1 つとしてブートストラップ式同位語辞書構築手法が注目を集めている.サーチエンジンが提供する検索API は知識収集の強力なツールである.しかし,検索API を通じて大量の検索を行うことは,サーチエンジンに過剰な負荷をかけてしまうことになる.そのため,サーチエンジン側でも検索API を通じた検索回数を制限している.そこで本稿では,検索回数をコストとして考慮し,なるべく少ない検索回数でより多くの同位語を収集可能な検索戦略を求めることを目標とする.実験の結果,合計2 000回の検索で10 万語以上のキーワードを適合率0.9 以上で抽出することができた. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | In this paper, we propose a cost-effective search strategy framework to extract keywords in the same semantic class from the Web. Constructing a dictionary based on the bootstrapping technique is one of the promising approaches to harnessing knowledge scattered around the Web. Open web application programming interfaces (APIs) are powerful tools for the knowledge-gathering process. However, we have to consider the cost of API calls because too many queries can overload the search engines, and they also limited the number of API calls. Our goal is to optimize a search strategy that can collect as many new words as possible with the least API calls. Our results shows that the optimized search strategy can extract more than 100,000 words with a precision of 0.90 by with only 2,000 search API calls. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AA11464847 | |||||||
書誌情報 |
情報処理学会論文誌データベース(TOD) 巻 1, 号 1, p. 36-48, 発行日 2008-06-26 |
|||||||
ISSN | ||||||||
収録物識別子タイプ | ISSN | |||||||
収録物識別子 | 1882-7799 | |||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |