ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 研究報告
  2. コンピュータビジョンとイメージメディア(CVIM)
  3. 2022
  4. 2022-CVIM-230

読唇に有効な深層学習モデルの検討

https://ipsj.ixsq.nii.ac.jp/records/217851
https://ipsj.ixsq.nii.ac.jp/records/217851
26418926-f619-4a54-a154-22eb43dd4e9f
名前 / ファイル ライセンス アクション
IPSJ-CVIM22230038.pdf IPSJ-CVIM22230038.pdf (1.3 MB)
Copyright (c) 2022 by the Institute of Electronics, Information and Communication Engineers This SIG report is only available to those in membership of the SIG.
CVIM:会員:¥0, DLIB:会員:¥0
Item type SIG Technical Reports(1)
公開日 2022-05-05
タイトル
タイトル 読唇に有効な深層学習モデルの検討
タイトル
言語 en
タイトル Efficient DNN model for word lip-reading
言語
言語 jpn
キーワード
主題Scheme Other
主題 一般講演セッション1
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_18gh
資源タイプ technical report
著者所属
九州工業大学
著者所属
九州工業大学
著者所属(英)
en
Kyushu Institute of Technology
著者所属(英)
en
Kyushu Institute of Technology
著者名 荒金, 大清

× 荒金, 大清

荒金, 大清

Search repository
齊藤, 剛史

× 齊藤, 剛史

齊藤, 剛史

Search repository
著者名(英) Taiki, Arakane

× Taiki, Arakane

en Taiki, Arakane

Search repository
Takeshi, Saitoh

× Takeshi, Saitoh

en Takeshi, Saitoh

Search repository
論文抄録
内容記述タイプ Other
内容記述 本論文では,動画像データの教師あり学習の一つである読唇技術に関して,様々な深層学習モデルの検討に取り組む.認識実験には,読唇分野における大規模公開データセットの一つであり,2016 年に公開された Lip Reading in the Wild(LRW)を用いる.LRW は英単語 500 語を認識対象としている.当初の認識精度は 66.1% であったが,多くの研究グループが取り組み,現在の SOTA の認識精度は 3D-Conv + ResNet18 + MS-TCN + 知識の蒸留による 88.5% である.本論文では SOTA のモデルを参考に,WideResNet や EfficientNet,Transformer や Vision Transformer などを組み合わせた深層学習モデルを用いて,読唇に有効なモデルを検討したためその結果を報告する.
論文抄録(英)
内容記述タイプ Other
内容記述 This paper studies various deep learning models for lip-reading technology, including one of supervised learning of the video. Lip Reading in the Wild (LRW), one of the large-scale public datasets in lip-reading, is used for the recognition experiment. The recognition target of LRW is 500 English words, which was released in 2016. Initially, the recognition accuracy was 66.1%, but many research groups have been working on it, and the current SOTA has achieved 88.5% by 3D-Conv + ResNet18 + MS-TCN + knowledge distillation. This paper inves- tigates effective deep learning models for lip-reading that combine WideResNet, EfficientNet, Transformer, Vision Transformer, regarding the SOTA model.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AA11131797
書誌情報 研究報告コンピュータビジョンとイメージメディア(CVIM)

巻 2022-CVIM-230, 号 38, p. 1-6, 発行日 2022-05-05
ISSN
収録物識別子タイプ ISSN
収録物識別子 2188-8701
Notice
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-19 15:21:28.402647
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3