ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 研究報告
  2. コンピュータビジョンとイメージメディア(CVIM)
  3. 2023
  4. 2023-CVIM-233

メタ学習を用いた単語読唇の検討

https://ipsj.ixsq.nii.ac.jp/records/224590
https://ipsj.ixsq.nii.ac.jp/records/224590
18f27c98-55e1-437e-9706-25d27df575ea
名前 / ファイル ライセンス アクション
IPSJ-CVIM23233024.pdf IPSJ-CVIM23233024.pdf (1.9 MB)
Copyright (c) 2023 by the Institute of Electronics, Information and Communication Engineers This SIG report is only available to those in membership of the SIG.
CVIM:会員:¥0, DLIB:会員:¥0
Item type SIG Technical Reports(1)
公開日 2023-02-23
タイトル
タイトル メタ学習を用いた単語読唇の検討
タイトル
言語 en
タイトル A Study of Word Lip-Reading using Meta Learning
言語
言語 jpn
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_18gh
資源タイプ technical report
著者所属
九州工業大学
著者所属
九州工業大学
著者所属(英)
en
Kyushu Institute of Technology
著者所属(英)
en
Kyushu Institute of Technology
著者名 児玉, 道成

× 児玉, 道成

児玉, 道成

Search repository
齊藤, 剛史

× 齊藤, 剛史

齊藤, 剛史

Search repository
著者名(英) Michinari, Kodama

× Michinari, Kodama

en Michinari, Kodama

Search repository
Takeshi, Saitoh

× Takeshi, Saitoh

en Takeshi, Saitoh

Search repository
論文抄録
内容記述タイプ Other
内容記述 視覚情報のみを用いて発話内容を推定する読唇技術は,教師あり学習の一種であり,大規模なデータセットが望まれている.しかし,発話シーンの収集はコストがかかる問題がある.そこで本論文では,収集コストを抑えるために,少数データで学習するアプローチの中で,メタ学習を用いる手法を検討する.読唇用公開データセット LRW および SSSD,比較用として行動認識公開データセット UCF101 の三つのデータセットを用いて,ProtoNet や DeepBDC など幾つかのメタ学習手法を用いて認識実験を実施した.その結果,UCF101 に比べると LRW とSSSD では低い認識精度であった.本稿では実施した実験結果を報告する.
論文抄録(英)
内容記述タイプ Other
内容記述 Lip-reading technology, which estimates utterance content using only visual information, is a kind of supervised learning, and a large-scale data set is desired. However, collecting utterance scenes is costly. Therefore, in this paper, in order to reduce the collection cost, we consider a method that uses meta learning in the approach of learning with a small number of data. Recognition experiments were conducted using several meta learning methods such as ProtoNet and DeepBDC using three datasets: public datasets LRW and SSSD for lip-reading, and public action recognition dataset UCF101 for comparison. As a result, compared to UCF101, LRW and SSSD had lower recognition accuracy. In this paper, we report the experimental results.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AA11131797
書誌情報 研究報告コンピュータビジョンとイメージメディア(CVIM)

巻 2023-CVIM-233, 号 24, p. 1-5, 発行日 2023-02-23
ISSN
収録物識別子タイプ ISSN
収録物識別子 2188-8701
Notice
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-19 13:05:27.071624
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3