WEKO3
アイテム
統計的手法に基づくWebページからのヘッドライン生成
https://ipsj.ixsq.nii.ac.jp/records/48413
https://ipsj.ixsq.nii.ac.jp/records/48413e63a8bdc-a3f5-4695-aa47-2a224d88453c
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2002 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2002-05-23 | |||||||
タイトル | ||||||||
タイトル | 統計的手法に基づくWebページからのヘッドライン生成 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Headline Generation from Web Pages Based on Statistical Method | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
日本電信電話株式会社NTTサイバースペース研究所 | ||||||||
著者所属 | ||||||||
日本電信電話株式会社NTTサイバースペース研究所 | ||||||||
著者所属 | ||||||||
日本電信電話株式会社NTTサイバースペース研究所 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
NTT Cyber Space Laboratories, NTT Corporation | ||||||||
著者所属(英) | ||||||||
en | ||||||||
NTT Cyber Space Laboratories, NTT Corporation | ||||||||
著者所属(英) | ||||||||
en | ||||||||
NTT Cyber Space Laboratories, NTT Corporation | ||||||||
著者名 |
廣嶋伸章
× 廣嶋伸章
|
|||||||
著者名(英) |
Nobuaki, Hiroshima
× Nobuaki, Hiroshima
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 現状の検索エンジンが出力する文書リストの概要文はWebページの先頭数十文字などであるため内容が把握できず、必要な情報に効率よくアクセスできない。これを解決するためには、概要文の代わりにWebページの内容を簡潔に表したヘッドラインを提示すればよい。そこで本研究は、Webページからその内容を簡潔に表したヘッドラインを自動生成することを目的とする。ヘッドラインは「(1)内容網羅性」、「(2)可読性」、「(3)高圧縮性」の3条件を満たす必要があるが、従来のテキスト要約技術ではこれらの3つの条件を同時に満たすことができない。本研究では、2値分類の機械学習手法であるSupport Vector Machine(SVM)を用いて、単語がヘッドラインとして必要か不要かに分類することにより重要語の選択を行い、単語trigramモデルと単語の重要度を組み合わせたNoisy channel modelを用いてヘッドライン生成を行う方法を提案する。Webページを用いた評価実験の結果、提案した重要語選択モデルはTF・IDFモデルより優れていることを検証し、これを用いたヘッドライン生成実験においてTF・IDFモデルに基づくベースライン手法よりテキスト全体の内容をより的確に表せることを検証した。 | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | The purpose of this study is to generate a headlines automatically from a given web page. We can define a headline as the sentence which is brief, easy to read and highly compressed. Our method consists of two steps: word selection and headline generation. For word selection, we classify each word into two categories by appling Support Vector Machine(SVM). For headline generation, we use a noisy channel model which is the combination of a word trigram model and a word importance model. The experimental result shows that the generated headline by our method explains the original contents more precisely than that in the baseline. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10115061 | |||||||
書誌情報 |
情報処理学会研究報告自然言語処理(NL) 巻 2002, 号 44(2002-NL-149), p. 45-50, 発行日 2002-05-23 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |