| Item type |
SIG Technical Reports(1) |
| 公開日 |
2021-02-25 |
| タイトル |
|
|
タイトル |
局所領域に着目したMulti-stream Neural Networksによる手話単語認識 |
| 言語 |
|
|
言語 |
jpn |
| キーワード |
|
|
主題Scheme |
Other |
|
主題 |
セッション2-2 |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
| 著者所属 |
|
|
|
大阪府立大学大学院工学研究科 |
| 著者所属 |
|
|
|
Department of Computer Science and Engineering, Indian Institute of Technology Roorkee |
| 著者所属 |
|
|
|
大阪府立大学大学院工学研究科 |
| 著者所属 |
|
|
|
Department of Computer Science and Engineering, Indian Institute of Technology Roorkee |
| 著者所属 |
|
|
|
大阪府立大学大学院工学研究科 |
| 著者所属 |
|
|
|
大阪府立大学大学院工学研究科 |
| 著者所属(英) |
|
|
|
en |
|
|
Department of Computer Science and Engineering, Indian Institute of Technology Roorkee |
| 著者所属(英) |
|
|
|
en |
|
|
Department of Computer Science and Engineering, Indian Institute of Technology Roorkee |
| 著者名 |
丸山, 瑞己
Shuvozit, Ghoseb
井上, 勝文
Partha, Pratim Royd
岩村, 雅一
吉岡, 理文
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
近年,手話認識に関する研究が広く行われおり,様々なアプローチが提案されている.中でも,行動認識のタスクのために提案された I3D ネットワークを用いた手法は,大規模な手話認識データセットにおいて最も高い認識率を達成している.I3D を用いた従来手法では,話者の全身もしくは上半身の外観情報のみを観測しているが,手話認識では手の形状や顔の表情のような局所的な情報や,体と手の位置関係が重要な意味を持つ.そこで,本研究では,手話認識において重要な要素である局所的な情報に加えて,体に対する手の位置を捉えるために骨格情報を追加で用いる.すなわち,既存の I3D ネットワークに,局所領域画像パッチを入力するストリームと,骨格情報を入力とするストリームを加えた Multi-stream 構造のモデルによって,手話認識精度の向上を図る.大規模な手話データセットである WLASL を用いた実験の結果,提案手法は従来手法に比べ,Top-1 正解率において約 15% の向上を達成した. |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AA11131797 |
| 書誌情報 |
研究報告コンピュータビジョンとイメージメディア(CVIM)
巻 2021-CVIM-225,
号 18,
p. 1-6,
発行日 2021-02-25
|
| ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8701 |
| Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |