@techreport{oai:ipsj.ixsq.nii.ac.jp:00232695, author = {佐藤, 遼太 and スザナ, リタ アルベス ベレザ and エリカ, キド シモモト and マテウス, シルバデリマ and 加藤, 伸子 and 福井, 和広 and Ryota, Sato and Suzana, Rita Alves Beleza and Erica, Kido Shimomoto and Matheus, Silva De Lima and Nobuko, Kato and Kazuhiro, Fukui}, issue = {4}, month = {Feb}, note = {本論文は時空間周波数領域の部分空間表現に基づく手話動画像の認識法を提案する.従来の部分空間に基づく手法では,動画列を構成する画像セットに対して,単純に主成分分析 (PCA) を適用して部分空間を生成していた.この手法は部分空間を容易に生成できるが,得られた部分空間にはフレーム順序のような時系列情報が含まれない.このために,手話動画像のように時系列情報が識別において大きな意味を持つ動画列に対しては,高い性能が期待できなかった.提案法の基本アイデアは,手話動画像列を 3 次元高速フーリエ変換 (3D-FFT) を用いて,周波数領域における 3 次元振幅スペクトルテンソルに変換することにある.提案法では,3次元振幅テンソルの各モードに対してそれぞれ PCA を適用して3つの部分空間セットを得る.3つの部分空間のセットは積グラスマン多様体(PGM)上の 1 点と見なせるので,2つの手話動画像列の類似度は PGM 上の対応する2点間の距離として算出する.独自に構築した日本語手話データセットと中国語手話の公開データセットを用いた評価実験により,提案手法が従来の部分空間ベースの性能を大幅に改善出来ることを確認した., This paper proposes a subspace-based method for sign language recognition in videos. The proposed method represents a sign video as a 3D amplitude spectrum tensor on the frequency-domains, which is invariant to the shifts in the spatial and temporal directions of target objects. Such a 3D tensor is generated by applying the three-dimensional fast Fourier transform (3D-FFT) to a sign video. A 3D amplitude spectral tensor is regarded as one point on the Product Grassmann Manifold (PGM). The classification of videos is conducted based on the distance between two points corresponding to two videos on the PGM. The extensive experiments on private and public sign language recognition datasets demonstrated the effectiveness of the proposed method, showing a significant performance improvement over conventional subspace-based methods.}, title = {時空間周波数領域における部分空間表現に基づく手話認識}, year = {2024} }