Item type |
Journal(1) |
公開日 |
2021-05-15 |
タイトル |
|
|
タイトル |
Cross Modality Pre-Trainingを用いたTwo-Stream 3D Convolutional Neural Networksによる万引き行動の自動検知 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Automated Detection Scheme of Shoplifting with Two-stream 3D Convolutional Neural Networks Based on Cross Modality Pre-training |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
[特集:情報システム論文] two-stream 3D convolutional neural networks,cross modality pre-training,万引き |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_6501 |
|
資源タイプ |
journal article |
ID登録 |
|
|
ID登録 |
10.20729/00211083 |
|
ID登録タイプ |
JaLC |
著者所属 |
|
|
|
立命館大学大学院理工学研究科 |
著者所属 |
|
|
|
立命館大学大学院理工学研究科 |
著者所属 |
|
|
|
立命館大学大学院理工学研究科 |
著者所属(英) |
|
|
|
en |
|
|
Graduate School of Science and Engineering, Ritsumeikan University |
著者所属(英) |
|
|
|
en |
|
|
Graduate School of Science and Engineering, Ritsumeikan University |
著者所属(英) |
|
|
|
en |
|
|
Graduate School of Science and Engineering, Ritsumeikan University |
著者名 |
山下, 裕之介
檜作, 彰良
中山, 良平
|
著者名(英) |
Yunosuke, Yamashita
Akiyoshi, Hizukuri
Ryohei, Nakayama
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
わが国における万引き被害額は年間4,615億円にのぼり,その対策が喫緊の課題となっている.本研究では,Cross Modality Pre-Trainingを用いたTS-3DCNNs(Two-Stream 3D Convolutional Neural Networks)により,防犯カメラ映像から万引き行動を自動検知する手法を提案する.実験試料は,防犯カメラで撮影された万引き行動が含まれる異常映像76件,含まれない正常映像76件で構成された.提案手法では,まず,各映像とそのフレーム間差分映像をTS-3DCNNsの2つの入力層に入力し,3層の3次元畳み込み層とプーリング層により,2入力映像から特徴マップをそれぞれ抽出した.そして,それらの特徴マップを統合し,1層の畳み込み層とGlobal Average Pooling層を経て,入力映像を異常/正常に分類した.TS-3DCNNsの学習では,まず,行動認識のデータセット(Kinetics-400)でCross Modality Pre-Trainingによる事前学習を行い,本実験試料で再学習した.提案手法のROC曲線下の面積(AUC)は0.918で,従来手法のEfficient Convolutional Network for Online Video Understanding(0.795)より高く,その有用性が示唆された. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
The total financial damage of shoplifting in Japan becomes over 461.5 billion yen per year. The purpose of this study was to develop two-stream 3D convolutional neural networks (TS-3DCNNs) for automatically detecting shoplifting behavior in security camera videos. Our database consisted of 76 abnormal videos with shoplifting behavior and 76 normal videos without shoplifting behavior. Original video and the difference video between its frames were inputted to two input layers in TS-3DCNNs, respectively. The feature maps were extracted independently from each of two videos through three sets of 3D convolutional layer and pooling layer. Those feature maps were merged and then processed sequentially in a 3D convolutional layer, a global average pooling layer and a fully connected layer. The fully connected layer classified the input videos into abnormal or normal video. In the training of TS-3DCNNs, TS-3DCNNs was pre-trained using a behavior recognition dataset (Kinetics-400) based on cross modality pre-training and then was re-trained using our dataset. The area under the ROC curve with TS-3DCNNs was 0.918, showing substantially greater than that with the conventional method for behavior recognition, efficient convolutional network for online video understanding (0.795). The proposed TS-3DCNNs achieved high classification performance and would be useful in detecting shoplifting behavior in security camera videos. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN00116647 |
書誌情報 |
情報処理学会論文誌
巻 62,
号 5,
p. 1193-1199,
発行日 2021-05-15
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
1882-7764 |