WEKO3
アイテム
ヘッドライン同定のための単語重要度の提案
https://ipsj.ixsq.nii.ac.jp/records/81870
https://ipsj.ixsq.nii.ac.jp/records/8187054386829-03e7-43d7-b9ac-24af7aef570a
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2012 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2012-05-03 | |||||||
タイトル | ||||||||
タイトル | ヘッドライン同定のための単語重要度の提案 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Proposing a word importance measure for head line identification | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | 解析・推定・コーパス | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
愛知県立大学大学院情報科学研究科 | ||||||||
著者所属 | ||||||||
愛知県立大学情報科学部情報 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate College of Science and Technology, Aichi Prefectural University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
School of Information Science and Technology, Aichi Prefectural University | ||||||||
著者名 |
宇高, 雅人
× 宇高, 雅人
|
|||||||
著者名(英) |
Masato, Utaka
× Masato, Utaka
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 本研究は,テキストに付けられたヘッドラインが適切であるかどうかを判断することの第一歩として,web 記事 (インターネット上の新聞記事) を対象にヘッドラインとその本文であるテキストを同定する手法を開発する.これを行うために,コーパスにおける単語の大域的頻度を用いた新たな単語重要度を導入した.新しい重要度の評価として,実際の web 記事を用いたヘッドライン同定実験を行い,従来の重要度計算手法である tf-idf 法と,提案手法,さらに人手での実験という 3 つの実験結果を比較した.ニュースサイトからランダムに選んだ 515 記事及び,似たまたは同じ内容を選んだ 303 記事に対して,提案手法は,それぞれ 78%,55% の正解率を示した.tf-idf 法では,それぞれ 76%,50% となり,従来の tf-idf 法よりも,ヘッドライン同定に有効であることが分かった.また人間と同等以上の性能を示した. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | This paper develops a method to identify a head line with a text for web articles (newspaper article on the Internet), as the first step of judging it whether a headline attached to the text is appropriate. We introduced new word importance measure using the global frequency of the word in the corpus. We performed the identification experiment using the real web articles. We compared the performance of our method with that of the conventional, tf-idf method and that of identification by human subjects. As a result the proposed method outperformed the tf-idf method; our method correctly identified 78% of 515 randomly selected web articles and 55% of another 303 articles that were similar to each other, whereas the tf-idf method correctly identified, 76% and 50%, respectively. It was also comparable or even superior to human subjects. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10115061 | |||||||
書誌情報 |
研究報告自然言語処理(NL) 巻 2012-NL-206, 号 5, p. 1-5, 発行日 2012-05-03 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |