WEKO3
アイテム
相互類似性と配信時間差に基づくWebニュース冗長記事のフィルタリング
https://ipsj.ixsq.nii.ac.jp/records/47657
https://ipsj.ixsq.nii.ac.jp/records/4765755b32f57-4cc4-4f02-a138-55976864f997
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2008 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2008-11-19 | |||||||
タイトル | ||||||||
タイトル | 相互類似性と配信時間差に基づくWebニュース冗長記事のフィルタリング | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Redundancy news filtering based on similarity and published time difference | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
東京理科大学工学研究科経営工学専攻 | ||||||||
著者所属 | ||||||||
東京理科大学工学部 | ||||||||
著者所属 | ||||||||
東京理科大学工学部 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Engineering, Tokyo University of Science | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Faculty of Engineering, Tokyo University of Science | ||||||||
著者所属(英) | ||||||||
en | ||||||||
;Faculty of Engineering, Tokyo University of Science | ||||||||
著者名 |
吉田, 光範
× 吉田, 光範
|
|||||||
著者名(英) |
Mitsunori, Yoshida
× Mitsunori, Yoshida
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 近年,World Wide Web へのアクセス環境の多様化と普及により,Web によるニュース閲覧は一般化してきている.ニュースポータルサイトを使うことで,各々の Web ニュースサイトに個別にアクセスすることなく,幅広い内容のニュースを一度に閲覧することができる.一方,複数の Web ニュースサイトが配信するニュース記事の中には,しばしば同じ情報が記述された記事 (冗長記事) が存在している.そのため,大量の冗長記事の中から,ユーザが自身の関心がある記事のみを選別するには手間がかかる.本研究では,ニュース記事間の相互類似性と配信時間差に基づく 2 つの冗長記事フィルタ手法を提案する.提案手法は,配信時間差に基づき冗長性の判定に制限を加えることで,続報記事を選別除去することなく,冗長記事のみを選別除去する.実際の Web ニュース記事を使った実験により,提案手法が冗長記事と続報記事を区別し,従来法よりも高い精度で冗長記事のみを選別できることを示す. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | Recently, WWW (World Wide Web) is widely spread all over the world. It is getting common to browse news articles on WWW. In the news portal site, we can read news articles which plural news sites published, without visiting in those news sites. However, it is often seen that news articles with the same information appear in several news sites. Therefore, it is difficult to select only appropriate news articles with interest among large amount of redundant articles. In this paper, we propose two redundancy news filtering methods which are based on similarity and published time difference. Theae filtering methods considers the published time of the news article in order to limit the article to judge as the redundant article. The first method uses window function and the second method uses machine learning. In the experiment, we show that our methods enable to distinguish redundant articles and follow up articles. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10115061 | |||||||
書誌情報 |
情報処理学会研究報告自然言語処理(NL) 巻 2008, 号 113(2008-NL-188), p. 9-16, 発行日 2008-11-19 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |