ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 研究報告
  2. 自然言語処理(NL)
  3. 2002
  4. 44(2002-NL-149)

統計的手法に基づくWebページからのヘッドライン生成

https://ipsj.ixsq.nii.ac.jp/records/48413
https://ipsj.ixsq.nii.ac.jp/records/48413
e63a8bdc-a3f5-4695-aa47-2a224d88453c
名前 / ファイル ライセンス アクション
IPSJ-NL02149007.pdf IPSJ-NL02149007.pdf (139.5 kB)
Copyright (c) 2002 by the Information Processing Society of Japan
オープンアクセス
Item type SIG Technical Reports(1)
公開日 2002-05-23
タイトル
タイトル 統計的手法に基づくWebページからのヘッドライン生成
タイトル
言語 en
タイトル Headline Generation from Web Pages Based on Statistical Method
言語
言語 jpn
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_18gh
資源タイプ technical report
著者所属
日本電信電話株式会社NTTサイバースペース研究所
著者所属
日本電信電話株式会社NTTサイバースペース研究所
著者所属
日本電信電話株式会社NTTサイバースペース研究所
著者所属(英)
en
NTT Cyber Space Laboratories, NTT Corporation
著者所属(英)
en
NTT Cyber Space Laboratories, NTT Corporation
著者所属(英)
en
NTT Cyber Space Laboratories, NTT Corporation
著者名 廣嶋伸章 長谷川, 隆明 山崎, 毅文

× 廣嶋伸章 長谷川, 隆明 山崎, 毅文

廣嶋伸章
長谷川, 隆明
山崎, 毅文

Search repository
著者名(英) Nobuaki, Hiroshima Takaaki, Hasegawa Takefumi, Yamazaki

× Nobuaki, Hiroshima Takaaki, Hasegawa Takefumi, Yamazaki

en Nobuaki, Hiroshima
Takaaki, Hasegawa
Takefumi, Yamazaki

Search repository
論文抄録
内容記述タイプ Other
内容記述 現状の検索エンジンが出力する文書リストの概要文はWebページの先頭数十文字などであるため内容が把握できず、必要な情報に効率よくアクセスできない。これを解決するためには、概要文の代わりにWebページの内容を簡潔に表したヘッドラインを提示すればよい。そこで本研究は、Webページからその内容を簡潔に表したヘッドラインを自動生成することを目的とする。ヘッドラインは「(1)内容網羅性」、「(2)可読性」、「(3)高圧縮性」の3条件を満たす必要があるが、従来のテキスト要約技術ではこれらの3つの条件を同時に満たすことができない。本研究では、2値分類の機械学習手法であるSupport Vector Machine(SVM)を用いて、単語がヘッドラインとして必要か不要かに分類することにより重要語の選択を行い、単語trigramモデルと単語の重要度を組み合わせたNoisy channel modelを用いてヘッドライン生成を行う方法を提案する。Webページを用いた評価実験の結果、提案した重要語選択モデルはTF・IDFモデルより優れていることを検証し、これを用いたヘッドライン生成実験においてTF・IDFモデルに基づくベースライン手法よりテキスト全体の内容をより的確に表せることを検証した。
論文抄録(英)
内容記述タイプ Other
内容記述 The purpose of this study is to generate a headlines automatically from a given web page. We can define a headline as the sentence which is brief, easy to read and highly compressed. Our method consists of two steps: word selection and headline generation. For word selection, we classify each word into two categories by appling Support Vector Machine(SVM). For headline generation, we use a noisy channel model which is the combination of a word trigram model and a word importance model. The experimental result shows that the generated headline by our method explains the original contents more precisely than that in the baseline.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AN10115061
書誌情報 情報処理学会研究報告自然言語処理(NL)

巻 2002, 号 44(2002-NL-149), p. 45-50, 発行日 2002-05-23
Notice
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-22 08:30:51.914178
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3