<?xml version='1.0' encoding='UTF-8'?>
<OAI-PMH xmlns="http://www.openarchives.org/OAI/2.0/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/ http://www.openarchives.org/OAI/2.0/OAI-PMH.xsd">
  <responseDate>2026-06-13T18:59:30Z</responseDate>
  <request metadataPrefix="oai_dc" verb="GetRecord" identifier="oai:ipsj.ixsq.nii.ac.jp:00224590">https://ipsj.ixsq.nii.ac.jp/oai</request>
  <GetRecord>
    <record>
      <header>
        <identifier>oai:ipsj.ixsq.nii.ac.jp:00224590</identifier>
        <datestamp>2025-01-19T13:05:27Z</datestamp>
        <setSpec>1164:4619:11188:11204</setSpec>
      </header>
      <metadata>
        <oai_dc:dc xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:oai_dc="http://www.openarchives.org/OAI/2.0/oai_dc/" xmlns="http://www.w3.org/2001/XMLSchema" xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/oai_dc/ http://www.openarchives.org/OAI/2.0/oai_dc.xsd">
          <dc:title>メタ学習を用いた単語読唇の検討</dc:title>
          <dc:title>A Study of Word Lip-Reading using Meta Learning</dc:title>
          <dc:creator>児玉, 道成</dc:creator>
          <dc:creator>齊藤, 剛史</dc:creator>
          <dc:creator>Michinari, Kodama</dc:creator>
          <dc:creator>Takeshi, Saitoh</dc:creator>
          <dc:description>視覚情報のみを用いて発話内容を推定する読唇技術は，教師あり学習の一種であり，大規模なデータセットが望まれている．しかし，発話シーンの収集はコストがかかる問題がある．そこで本論文では，収集コストを抑えるために，少数データで学習するアプローチの中で，メタ学習を用いる手法を検討する．読唇用公開データセット LRW および SSSD，比較用として行動認識公開データセット UCF101 の三つのデータセットを用いて，ProtoNet や DeepBDC など幾つかのメタ学習手法を用いて認識実験を実施した．その結果，UCF101 に比べると LRW とSSSD では低い認識精度であった．本稿では実施した実験結果を報告する．</dc:description>
          <dc:description>Lip-reading technology, which estimates utterance content using only visual information, is a kind of supervised learning, and a large-scale data set is desired. However, collecting utterance scenes is costly. Therefore, in this paper, in order to reduce the collection cost, we consider a method that uses meta learning in the approach of learning with a small number of data. Recognition experiments were conducted using several meta learning methods such as ProtoNet and DeepBDC using three datasets: public datasets LRW and SSSD for lip-reading, and public action recognition dataset UCF101 for comparison. As a result, compared to UCF101, LRW and SSSD had lower recognition accuracy. In this paper, we report the experimental results.</dc:description>
          <dc:description>technical report</dc:description>
          <dc:publisher>情報処理学会</dc:publisher>
          <dc:date>2023-02-23</dc:date>
          <dc:format>application/pdf</dc:format>
          <dc:identifier>研究報告コンピュータビジョンとイメージメディア（CVIM）</dc:identifier>
          <dc:identifier>24</dc:identifier>
          <dc:identifier>2023-CVIM-233</dc:identifier>
          <dc:identifier>1</dc:identifier>
          <dc:identifier>5</dc:identifier>
          <dc:identifier>2188-8701</dc:identifier>
          <dc:identifier>AA11131797</dc:identifier>
          <dc:identifier>https://ipsj.ixsq.nii.ac.jp/record/224590/files/IPSJ-CVIM23233024.pdf</dc:identifier>
          <dc:language>jpn</dc:language>
        </oai_dc:dc>
      </metadata>
    </record>
  </GetRecord>
</OAI-PMH>
