WEKO3
アイテム
生成型文要約のための抽出性に着目したデータ選択
https://ipsj.ixsq.nii.ac.jp/records/198869
https://ipsj.ixsq.nii.ac.jp/records/198869ff4cdb7a-2b2f-4f9d-8671-32ae6c2c950c
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2019 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|
公開日 | 2019-08-22 | |||||||||||
タイトル | ||||||||||||
タイトル | 生成型文要約のための抽出性に着目したデータ選択 | |||||||||||
言語 | ||||||||||||
言語 | jpn | |||||||||||
資源タイプ | ||||||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||||||
資源タイプ | technical report | |||||||||||
著者所属 | ||||||||||||
東京工業大学 | ||||||||||||
著者所属 | ||||||||||||
東京工業大学 | ||||||||||||
著者所属 | ||||||||||||
東京工業大学 | ||||||||||||
著者名 |
長谷川, 駿
× 長谷川, 駿
× 上垣外, 英剛
× 奥村, 学
|
|||||||||||
論文抄録 | ||||||||||||
内容記述タイプ | Other | |||||||||||
内容記述 | 生成型文要約は必ずしも原文の語句を抽出することなく,入力に対して極めて柔軟な要約文を生成することが可能である.しかし,我々の事前調査で,最高精度に近い性能を達成している文要約器の出力では,原文から借用した単語が生成文の約 8 割弱を占めていることが判明している.一方で,その要約器の学習に用いた訓練データでは,参照要約文において原文から借用された単語は約 6 割弱にとどまっている.我々は,これらの調査結果における実際の生成文と訓練データの抽出率の乖離から,既存の生成型文要約器が抽出的な要約を得意としており,抽出率の低いデータ対が学習時のノイズとなっているという仮定を置いた.本研究ではこの仮定に基づき,訓練データから抽出率の低いデータ対を除去する,簡易で効果的なデータ選択手法を提案する.実験の結果,提案手法を用いた場合,3 つの種類の文要約器において全データで学習した場合の半分のデータ量 ・学習時間で同等の要約性能を達成できることを確認した.また,訓練データの抽出性 ・生成性を変化させて学習 ・比較を行うことで,それらの訓練データの性質が文要約器に与える影響の分析も行った. | |||||||||||
書誌レコードID | ||||||||||||
収録物識別子タイプ | NCID | |||||||||||
収録物識別子 | AN10115061 | |||||||||||
書誌情報 |
研究報告自然言語処理(NL) 巻 2019-NL-241, 号 28, p. 1-7, 発行日 2019-08-22 |
|||||||||||
ISSN | ||||||||||||
収録物識別子タイプ | ISSN | |||||||||||
収録物識別子 | 2188-8779 | |||||||||||
Notice | ||||||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||||||
出版者 | ||||||||||||
言語 | ja | |||||||||||
出版者 | 情報処理学会 |