WEKO3
アイテム
言語パターンに着目した複数文書要約
https://ipsj.ixsq.nii.ac.jp/records/48232
https://ipsj.ixsq.nii.ac.jp/records/482324c2e9ad3-cc87-4511-b4cf-c40fb36fde57
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2003 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2003-11-06 | |||||||
タイトル | ||||||||
タイトル | 言語パターンに着目した複数文書要約 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Multiple Document Summarization using Sequential Pattern Mining | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
日本電信電話株式会社NTTコミュニケーション科学基礎研究所 | ||||||||
著者所属 | ||||||||
日本電信電話株式会社NTTコミュニケーション科学基礎研究所 | ||||||||
著者所属 | ||||||||
日本電信電話株式会社NTTコミュニケーション科学基礎研究所 | ||||||||
著者所属 | ||||||||
日本電信電話株式会社NTTコミュニケーション科学基礎研究所 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
NTT Communication Science Laboratories, NTT Corp. | ||||||||
著者所属(英) | ||||||||
en | ||||||||
NTT Communication Science Laboratories, NTT Corp. | ||||||||
著者所属(英) | ||||||||
en | ||||||||
NTT Communication Science Laboratories, NTT Corp. | ||||||||
著者所属(英) | ||||||||
en | ||||||||
NTT Communication Science Laboratories, NTT Corp. | ||||||||
著者名 |
平尾, 努
× 平尾, 努
|
|||||||
著者名(英) |
Tsutomu, Hirao
× Tsutomu, Hirao
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 複数文書要約の実現のためには,文書集合から重要文を精度良く抽出することと共に複数の文書に共通して出現する冗長な表現を排除することが必要である.これまでの要約手法は,重要文抽出や冗長表現の排除のための特徴として単語やn-gramを用いている.しかし,文が木構造で表現できることを考えると連続した単語の並びだけでなく,スキップを許した単語の並びに着目することがこうしたタスクに有効であると推測される.そこで本稿では,(1)スキップを許した単語列を重要文抽出の特徴として用いること.(2)拡張ストリング・カーネル(ESK)を利用したMMR(Maximal Meridien Relevance)を用いて冗長文の削除を行うことを特徴とする要約手法を新たに提案する.毎日,日経,読売の3誌より作成したテストセットを用いた評価実験からLead手法,TF・IDF手法などの従来手法と比較して提案手法がより高い抽出制度を実現すること,ESKを用いたMMRが従来のMMRよりパラメータに対して頑健であることがわかった.さらに,複数文要約を目的とした重要文抽出制度の新しい評価尺度についても提案する. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | In this paper, we propose a multiple document summarization method using a sequential pattern mining algorithm. We extract important sentences in the following way; First, extracting term patterns from target document set by using PrefixSpan.Second, identifying significant patterns based on X^2 statistics, Third, determining a sentence score using the patterns weighting based on TF・IDF. Moreover, we propose a kernel-based MMR (Maximal Marginal Relevance) for minimizing redundant sentences. This method employs a similarity measure based on Extended String Subsequence kernel instead of cosine similarity. In addition, we define an evaluation measure for data set includes redundant sentences, i.e., there are many sentences whose meaning are the same. The evaluation results show that our extraction method is better than conventional methods and the kernel-based MMR outperforms conventional MMR. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10115061 | |||||||
書誌情報 |
情報処理学会研究報告自然言語処理(NL) 巻 2003, 号 108(2003-NL-158), p. 31-38, 発行日 2003-11-06 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |