Item type |
SIG Technical Reports(1) |
公開日 |
2024-12-05 |
タイトル |
|
|
タイトル |
文単位音声要約のためのデータセット構築とEnd-to-Endモデルの検討 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Constructing Datasets for Sentence-wise Speech Summarization and Exploring End-to-End Modeling |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
音声認識 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
日本電信電話株式会社 |
著者所属 |
|
|
|
日本電信電話株式会社 |
著者所属 |
|
|
|
日本電信電話株式会社 |
著者所属 |
|
|
|
日本電信電話株式会社 |
著者所属 |
|
|
|
日本電信電話株式会社 |
著者所属 |
|
|
|
日本電信電話株式会社 |
著者所属 |
|
|
|
日本電信電話株式会社 |
著者名 |
松浦, 孝平
芦原, 孝典
森谷, 崇史
三村, 正人
叶, 高朋
小川, 厚徳
デルクロア, マーク
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
本研究では,発話文書からテキスト要約を文ごとに生成する新たな手法 “Sentence-wise Speech Summarization (Sen-SSum)” を提案する.Sen-SSum は,自動音声認識(ASR)のリアルタイム性と,音声要約の簡潔さを両立させるアプローチである.本手法を検証するために,Sen-SSum 用の 2 つのデータセット “Mega-SSum” および “CSJ-SSum” を構築する.これらのデータセットを用い,2 種類の Transformer ベースのモデルの性能を評価する.1 つ目は ASR と高性能なテキスト要約モデルを組み合わせたカスケードモデル,2 つ目は音声を直接テキスト要約へ変換する End-to-End(E2E)モデルである.E2E モデルは計算効率の観点から魅力的であるが,カスケードモデルと比較して性能が劣るという課題がある.そこで,カスケードモデルにより生成された擬似要約をもちいて E2E モデルを学習することで,カスケードモデルの強力な言語知識を E2E モデルへ蒸留することを提案する.評価実験により,本手法は E2E モデルの要約精度を両データセットにおいて効果的に向上することを示した. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2024-SLP-154,
号 3,
p. 1-7,
発行日 2024-12-05
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |