| Item type |
SIG Technical Reports(1) |
| 公開日 |
2023-02-23 |
| タイトル |
|
|
タイトル |
メタ学習を用いた単語読唇の検討 |
| タイトル |
|
|
言語 |
en |
|
タイトル |
A Study of Word Lip-Reading using Meta Learning |
| 言語 |
|
|
言語 |
jpn |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
| 著者所属 |
|
|
|
九州工業大学 |
| 著者所属 |
|
|
|
九州工業大学 |
| 著者所属(英) |
|
|
|
en |
|
|
Kyushu Institute of Technology |
| 著者所属(英) |
|
|
|
en |
|
|
Kyushu Institute of Technology |
| 著者名 |
児玉, 道成
齊藤, 剛史
|
| 著者名(英) |
Michinari, Kodama
Takeshi, Saitoh
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
視覚情報のみを用いて発話内容を推定する読唇技術は,教師あり学習の一種であり,大規模なデータセットが望まれている.しかし,発話シーンの収集はコストがかかる問題がある.そこで本論文では,収集コストを抑えるために,少数データで学習するアプローチの中で,メタ学習を用いる手法を検討する.読唇用公開データセット LRW および SSSD,比較用として行動認識公開データセット UCF101 の三つのデータセットを用いて,ProtoNet や DeepBDC など幾つかのメタ学習手法を用いて認識実験を実施した.その結果,UCF101 に比べると LRW とSSSD では低い認識精度であった.本稿では実施した実験結果を報告する. |
| 論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
Lip-reading technology, which estimates utterance content using only visual information, is a kind of supervised learning, and a large-scale data set is desired. However, collecting utterance scenes is costly. Therefore, in this paper, in order to reduce the collection cost, we consider a method that uses meta learning in the approach of learning with a small number of data. Recognition experiments were conducted using several meta learning methods such as ProtoNet and DeepBDC using three datasets: public datasets LRW and SSSD for lip-reading, and public action recognition dataset UCF101 for comparison. As a result, compared to UCF101, LRW and SSSD had lower recognition accuracy. In this paper, we report the experimental results. |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AA11131797 |
| 書誌情報 |
研究報告コンピュータビジョンとイメージメディア(CVIM)
巻 2023-CVIM-233,
号 24,
p. 1-5,
発行日 2023-02-23
|
| ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8701 |
| Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |