<?xml version='1.0' encoding='UTF-8'?>
<OAI-PMH xmlns="http://www.openarchives.org/OAI/2.0/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/ http://www.openarchives.org/OAI/2.0/OAI-PMH.xsd">
  <responseDate>2026-03-15T11:42:31Z</responseDate>
  <request metadataPrefix="oai_dc" verb="GetRecord" identifier="oai:ipsj.ixsq.nii.ac.jp:00241623">https://ipsj.ixsq.nii.ac.jp/oai</request>
  <GetRecord>
    <record>
      <header>
        <identifier>oai:ipsj.ixsq.nii.ac.jp:00241623</identifier>
        <datestamp>2025-01-19T07:36:00Z</datestamp>
        <setSpec>1164:5159:11541:11870</setSpec>
      </header>
      <metadata>
        <oai_dc:dc xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:oai_dc="http://www.openarchives.org/OAI/2.0/oai_dc/" xmlns="http://www.w3.org/2001/XMLSchema" xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/oai_dc/ http://www.openarchives.org/OAI/2.0/oai_dc.xsd">
          <dc:title>文単位音声要約のためのデータセット構築とEnd-to-Endモデルの検討</dc:title>
          <dc:title>Constructing Datasets for Sentence-wise Speech Summarization and Exploring End-to-End Modeling</dc:title>
          <dc:creator>松浦, 孝平</dc:creator>
          <dc:creator>芦原, 孝典</dc:creator>
          <dc:creator>森谷, 崇史</dc:creator>
          <dc:creator>三村, 正人</dc:creator>
          <dc:creator>叶, 高朋</dc:creator>
          <dc:creator>小川, 厚徳</dc:creator>
          <dc:creator>デルクロア, マーク</dc:creator>
          <dc:subject>音声認識</dc:subject>
          <dc:description>本研究では，発話文書からテキスト要約を文ごとに生成する新たな手法 “Sentence-wise Speech Summarization (Sen-SSum)” を提案する．Sen-SSum は，自動音声認識（ASR）のリアルタイム性と，音声要約の簡潔さを両立させるアプローチである．本手法を検証するために，Sen-SSum 用の 2 つのデータセット “Mega-SSum” および “CSJ-SSum” を構築する．これらのデータセットを用い，2 種類の Transformer ベースのモデルの性能を評価する．1 つ目は ASR と高性能なテキスト要約モデルを組み合わせたカスケードモデル，2 つ目は音声を直接テキスト要約へ変換する End-to-End（E2E）モデルである．E2E モデルは計算効率の観点から魅力的であるが，カスケードモデルと比較して性能が劣るという課題がある．そこで，カスケードモデルにより生成された擬似要約をもちいて E2E モデルを学習することで，カスケードモデルの強力な言語知識を E2E モデルへ蒸留することを提案する．評価実験により，本手法は E2E モデルの要約精度を両データセットにおいて効果的に向上することを示した．</dc:description>
          <dc:description>technical report</dc:description>
          <dc:publisher>情報処理学会</dc:publisher>
          <dc:date>2024-12-05</dc:date>
          <dc:format>application/pdf</dc:format>
          <dc:identifier>研究報告音声言語情報処理（SLP）</dc:identifier>
          <dc:identifier>3</dc:identifier>
          <dc:identifier>2024-SLP-154</dc:identifier>
          <dc:identifier>1</dc:identifier>
          <dc:identifier>7</dc:identifier>
          <dc:identifier>2188-8663</dc:identifier>
          <dc:identifier>AN10442647</dc:identifier>
          <dc:identifier>https://ipsj.ixsq.nii.ac.jp/record/241623/files/IPSJ-SLP24154003.pdf</dc:identifier>
          <dc:language>jpn</dc:language>
        </oai_dc:dc>
      </metadata>
    </record>
  </GetRecord>
</OAI-PMH>
