| Item type |
SIG Technical Reports(1) |
| 公開日 |
2024-05-08 |
| タイトル |
|
|
タイトル |
大域・局所特徴統合埋め込みに基づくオープン語彙時系列行動検出 |
| 言語 |
|
|
言語 |
jpn |
| キーワード |
|
|
主題Scheme |
Other |
|
主題 |
セッション3(PRMU) |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
| 著者所属 |
|
|
|
名古屋大学大学院情報学研究科/理化学研究所 ガーディアンロボットプロジェクト::理化学研究所 ガーディアンロボットプロジェクト/名古屋大学大学院情報学研究科 |
| 著者所属 |
|
|
|
名古屋大学数理・データ科学教育研究センター/名古屋大学大学院情報学研究科 |
| 著者所属 |
|
|
|
名古屋大学大学院情報学研究科/名古屋大学数理・データ科学教育研究センター |
| 著者名 |
グエンチュン, タイン
川西, 康友
駒水, 孝裕
井手, 一郎
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
オープン語彙時系列行動検出(オープン語彙 TAD)は,クローズド語彙時系列行動検出(クローズド語彙 TAD)の検出対象を拡張し,学習データに含まれない語彙で指定された未知行動クラスを検出することを目的とするタスクである.オープン語彙 TAD は行動区間の候補の提案とその候補における行動の識別の 2 段階手法にするのが一般的である.しかし前段での誤りが後段や最終結果に影響を及ぼす可能性がある.さらに,従来手法での時系列の文脈分析器は,局所的または大域的な文脈のいずれかに注目している.大域的な文脈のみに注目すると,瞬間的な詳細情報が不足し,各行動の識別が難しくなる.一方,局所的な文脈のみに注目すると,行動と非行動との区別が難しくなる.また近年,動画像特徴抽出の際に複雑な自己注意機構を用いることで生じるランク落ちによる各フレームでの識別力の低下が指摘されている.本研究では,これらの問題を解決するため,大域・局所特徴統合埋め込みを活用した1段階手法を提案する.この手法では,動画像の特徴から行動区間候補の提案と識別を同時にすることで,2 段階手法における誤差蓄積の問題を解決する.さらに,大域・局所特徴の統合的な埋め込みを動画像特徴抽出に導入することで,各フレームでの識別力を維持しつつ全体としての時系列における文脈を理解できるようになり,効果的な行動検出を実現する.先行研究と比較して,THUMOS14 データセットで最大 16.6 ポイント,ActivityNet-1.3 データセットで最大 8.3 ポイント,性能を向上した. |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AA11131797 |
| 書誌情報 |
研究報告コンピュータビジョンとイメージメディア(CVIM)
巻 2024-CVIM-238,
号 60,
p. 1-6,
発行日 2024-05-08
|
| ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8701 |
| Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |