@techreport{oai:ipsj.ixsq.nii.ac.jp:00241623, author = {松浦, 孝平 and 芦原, 孝典 and 森谷, 崇史 and 三村, 正人 and 叶, 高朋 and 小川, 厚徳 and デルクロア, マーク}, issue = {3}, month = {Dec}, note = {本研究では,発話文書からテキスト要約を文ごとに生成する新たな手法 “Sentence-wise Speech Summarization (Sen-SSum)” を提案する.Sen-SSum は,自動音声認識(ASR)のリアルタイム性と,音声要約の簡潔さを両立させるアプローチである.本手法を検証するために,Sen-SSum 用の 2 つのデータセット “Mega-SSum” および “CSJ-SSum” を構築する.これらのデータセットを用い,2 種類の Transformer ベースのモデルの性能を評価する.1 つ目は ASR と高性能なテキスト要約モデルを組み合わせたカスケードモデル,2 つ目は音声を直接テキスト要約へ変換する End-to-End(E2E)モデルである.E2E モデルは計算効率の観点から魅力的であるが,カスケードモデルと比較して性能が劣るという課題がある.そこで,カスケードモデルにより生成された擬似要約をもちいて E2E モデルを学習することで,カスケードモデルの強力な言語知識を E2E モデルへ蒸留することを提案する.評価実験により,本手法は E2E モデルの要約精度を両データセットにおいて効果的に向上することを示した.}, title = {文単位音声要約のためのデータセット構築とEnd-to-Endモデルの検討}, year = {2024} }