時空間周波数領域における部分空間表現に基づく手話認識

佐藤, 遼太; スザナ, リタ アルベス ベレザ; エリカ, キド シモモト; マテウス, シルバデリマ; 加藤, 伸子; 福井, 和広; Ryota, Sato; Suzana, Rita Alves Beleza; Erica, Kido Shimomoto; Matheus, Silva De Lima; Nobuko, Kato; Kazuhiro, Fukui

WEKO3

lat lon distance

[[sub_check.contents]]

[[sub_radio.contents]]

Field does not validate

[[sub_attr.contents]]　

インデックスツリー

アイテム

時空間周波数領域における部分空間表現に基づく手話認識

https://ipsj.ixsq.nii.ac.jp/records/232695

名前 / ファイル	ライセンス	アクション
IPSJ-CVIM24237004.pdf (3.3 MB)	Copyright (c) 2024 by the Institute of Electronics, Information and Communication Engineers This SIG report is only available to those in membership of the SIG.
CVIM:会員：¥0, DLIB:会員：¥0

Item type

SIG Technical Reports(1)

公開日

2024-02-25

タイトル

時空間周波数領域における部分空間表現に基づく手話認識

タイトル

言語

タイトル

Sign language recognition using subspace representations

言語

jpn

資源タイプ

資源タイプ識別子

http://purl.org/coar/resource_type/c_18gh

資源タイプ

technical report

著者所属

筑波大学

著者所属

筑波大学

著者所属

産業技術総合研究所

著者所属

筑波大学

著者所属

筑波技術大学

著者所属

筑波大学

著者名

佐藤, 遼太
スザナ, リタアルベスベレザ

エリカ, キドシモモト
マテウス, シルバデリマ
加藤, 伸子
福井, 和広

著者名(英)

Ryota, Sato
Suzana, Rita Alves Beleza
Erica, Kido Shimomoto
Matheus, Silva De Lima
Nobuko, Kato
Kazuhiro, Fukui

論文抄録

内容記述タイプ

Other

内容記述

本論文は時空間周波数領域の部分空間表現に基づく手話動画像の認識法を提案する．従来の部分空間に基づく手法では，動画列を構成する画像セットに対して，単純に主成分分析 (PCA) を適用して部分空間を生成していた．この手法は部分空間を容易に生成できるが，得られた部分空間にはフレーム順序のような時系列情報が含まれない．このために，手話動画像のように時系列情報が識別において大きな意味を持つ動画列に対しては，高い性能が期待できなかった．提案法の基本アイデアは，手話動画像列を 3 次元高速フーリエ変換 (3D-FFT) を用いて，周波数領域における 3 次元振幅スペクトルテンソルに変換することにある．提案法では，３次元振幅テンソルの各モードに対してそれぞれ PCA を適用して３つの部分空間セットを得る．３つの部分空間のセットは積グラスマン多様体（PGM）上の 1 点と見なせるので，２つの手話動画像列の類似度は PGM 上の対応する２点間の距離として算出する．独自に構築した日本語手話データセットと中国語手話の公開データセットを用いた評価実験により，提案手法が従来の部分空間ベースの性能を大幅に改善出来ることを確認した．

論文抄録(英)

内容記述タイプ

Other

内容記述

This paper proposes a subspace-based method for sign language recognition in videos. The proposed method represents a sign video as a 3D amplitude spectrum tensor on the frequency-domains, which is invariant to the shifts in the spatial and temporal directions of target objects. Such a 3D tensor is generated by applying the three-dimensional fast Fourier transform (3D-FFT) to a sign video. A 3D amplitude spectral tensor is regarded as one point on the Product Grassmann Manifold (PGM). The classiﬁcation of videos is conducted based on the distance between two points corresponding to two videos on the PGM. The extensive experiments on private and public sign language recognition datasets demonstrated the eﬀectiveness of the proposed method, showing a signiﬁcant performance improvement over conventional subspace-based methods.

書誌レコードID

収録物識別子タイプ

NCID

収録物識別子

AA11131797

書誌情報

研究報告コンピュータビジョンとイメージメディア（CVIM）

巻 2024-CVIM-237, 号 4, p. 1-6, 発行日 2024-02-25

ISSN

収録物識別子タイプ

ISSN

収録物識別子

2188-8701

Notice

SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.

出版者

言語

出版者

情報処理学会

戻る

views

See details

	Views

Versions

Ver.1

2025-01-19 10:21:03.733278

Show All versions

Cite as

エクスポート

OAI-PMH

JPCOAR
DublinCore
DDI

Other Formats

JSON
BIBTEX

インデックスリンク

インデックスツリー

アイテム

時空間周波数領域における部分空間表現に基づく手話認識

× 佐藤, 遼太

× スザナ, リタアルベスベレザ

× エリカ, キドシモモト

× マテウス, シルバデリマ

× 加藤, 伸子

× 福井, 和広

× Ryota, Sato

× Suzana, Rita Alves Beleza

× Erica, Kido Shimomoto

× Matheus, Silva De Lima

× Nobuko, Kato

× Kazuhiro, Fukui

Versions

Share

Cite as

エクスポート

インデックスリンク

インデックスツリー

アイテム

時空間周波数領域における部分空間表現に基づく手話認識

× 佐藤, 遼太

× スザナ, リタ アルベス ベレザ

× エリカ, キド シモモト

× マテウス, シルバデリマ

× 加藤, 伸子

× 福井, 和広

× Ryota, Sato

× Suzana, Rita Alves Beleza

× Erica, Kido Shimomoto

× Matheus, Silva De Lima

× Nobuko, Kato

× Kazuhiro, Fukui

Versions

Share

Cite as

エクスポート

× スザナ, リタアルベスベレザ

× エリカ, キドシモモト