Item type |
SIG Technical Reports(1) |
公開日 |
2024-02-25 |
タイトル |
|
|
タイトル |
時空間周波数領域における部分空間表現に基づく手話認識 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Sign language recognition using subspace representations |
言語 |
|
|
言語 |
jpn |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
筑波大学 |
著者所属 |
|
|
|
筑波大学 |
著者所属 |
|
|
|
産業技術総合研究所 |
著者所属 |
|
|
|
筑波大学 |
著者所属 |
|
|
|
筑波技術大学 |
著者所属 |
|
|
|
筑波大学 |
著者名 |
佐藤, 遼太
スザナ, リタ アルベス ベレザ
エリカ, キド シモモト
マテウス, シルバデリマ
加藤, 伸子
福井, 和広
|
著者名(英) |
Ryota, Sato
Suzana, Rita Alves Beleza
Erica, Kido Shimomoto
Matheus, Silva De Lima
Nobuko, Kato
Kazuhiro, Fukui
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
本論文は時空間周波数領域の部分空間表現に基づく手話動画像の認識法を提案する.従来の部分空間に基づく手法では,動画列を構成する画像セットに対して,単純に主成分分析 (PCA) を適用して部分空間を生成していた.この手法は部分空間を容易に生成できるが,得られた部分空間にはフレーム順序のような時系列情報が含まれない.このために,手話動画像のように時系列情報が識別において大きな意味を持つ動画列に対しては,高い性能が期待できなかった.提案法の基本アイデアは,手話動画像列を 3 次元高速フーリエ変換 (3D-FFT) を用いて,周波数領域における 3 次元振幅スペクトルテンソルに変換することにある.提案法では,3次元振幅テンソルの各モードに対してそれぞれ PCA を適用して3つの部分空間セットを得る.3つの部分空間のセットは積グラスマン多様体(PGM)上の 1 点と見なせるので,2つの手話動画像列の類似度は PGM 上の対応する2点間の距離として算出する.独自に構築した日本語手話データセットと中国語手話の公開データセットを用いた評価実験により,提案手法が従来の部分空間ベースの性能を大幅に改善出来ることを確認した. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
This paper proposes a subspace-based method for sign language recognition in videos. The proposed method represents a sign video as a 3D amplitude spectrum tensor on the frequency-domains, which is invariant to the shifts in the spatial and temporal directions of target objects. Such a 3D tensor is generated by applying the three-dimensional fast Fourier transform (3D-FFT) to a sign video. A 3D amplitude spectral tensor is regarded as one point on the Product Grassmann Manifold (PGM). The classification of videos is conducted based on the distance between two points corresponding to two videos on the PGM. The extensive experiments on private and public sign language recognition datasets demonstrated the effectiveness of the proposed method, showing a significant performance improvement over conventional subspace-based methods. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AA11131797 |
書誌情報 |
研究報告コンピュータビジョンとイメージメディア(CVIM)
巻 2024-CVIM-237,
号 4,
p. 1-6,
発行日 2024-02-25
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8701 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |