WEKO3
アイテム
視覚障害者の動画視聴体験向上のための感情認識システムの提案
https://ipsj.ixsq.nii.ac.jp/records/238562
https://ipsj.ixsq.nii.ac.jp/records/238562ec308e43-b9ef-4576-9aea-6a754fcde64b
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]()
2026年8月28日からダウンロード可能です。
|
Copyright (c) 2024 by the Information Processing Society of Japan / the Institute of Image Information and Television Engineers
|
|
非会員:¥660, IPSJ:学会員:¥330, AVM:会員:¥0, DLIB:会員:¥0 |
Item type | SIG Technical Reports(1) | |||||||||
---|---|---|---|---|---|---|---|---|---|---|
公開日 | 2024-08-28 | |||||||||
タイトル | ||||||||||
タイトル | 視覚障害者の動画視聴体験向上のための感情認識システムの提案 | |||||||||
タイトル | ||||||||||
言語 | en | |||||||||
タイトル | Proposal of an Emotion Recognition System to Enhance the Video Viewing Experience for Visually Impaired Individuals | |||||||||
言語 | ||||||||||
言語 | jpn | |||||||||
資源タイプ | ||||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||||
資源タイプ | technical report | |||||||||
著者所属 | ||||||||||
芝浦工業大学理工学研究科社会情報研究室 | ||||||||||
著者所属 | ||||||||||
芝浦工業大学理工学研究科社会情報研究室 | ||||||||||
著者所属(英) | ||||||||||
en | ||||||||||
Graduate School of Engineering and Science, Shibaura Institute of Technology | ||||||||||
著者所属(英) | ||||||||||
en | ||||||||||
Graduate School of Engineering and Science, Shibaura Institute of Technology | ||||||||||
著者名 |
寧, 致遠
× 寧, 致遠
× 中村, 広幸
|
|||||||||
著者名(英) |
Zhiyuan, Ning
× Zhiyuan, Ning
× Hiroyuki, Nakamura
|
|||||||||
論文抄録 | ||||||||||
内容記述タイプ | Other | |||||||||
内容記述 | 近年,TikTok などの短編動画プラットフォームの急成長により,視覚障害者にとって動画視聴のアクセシビリティ向上が求められている.従来の音声解説は専門的な知識とリソースを要するため,提供が限られている.本研究では,視覚と音声の感情手がかりを認識し,聴覚的にアクセス可能な形に変換する感情認識システムを提案する.畳み込みニューラルネットワーク(CNN)や再帰型ニューラルネットワーク(RNN)を活用し,音声および視覚データから感情を検出・翻訳する.JVNV データセットを使用した音声感情認識と FER2013 データセットを用いた顔表情認識を組み合わせることで,視覚障害者が動画内の感情変化を音声で認識できるようにする.モデルの精度向上,ユーザーフレンドリーなインターフェースの開発,実験を通じたシステムの有効性評価を行い,視覚障害者にとって動画コンテンツのアクセシビリティを大幅に向上させることを目指す. | |||||||||
論文抄録(英) | ||||||||||
内容記述タイプ | Other | |||||||||
内容記述 | The rapid growth of short video platforms like TikTok has highlighted the need for improved accessibility for visually impaired individuals. Traditional audio descriptions require specialized skills and resources, limiting their availability. This study proposes an emotion recognition system that converts visual and vocal emotional cues into accessible auditory outputs. Utilizing convolutional neural networks (CNNs) and recurrent neural networks (RNNs), the system detects and translates emotions from both audio and visual data. By integrating speech emotion recognition using the JVNV dataset and facial expression recognition using the FER2013 dataset, the system enables visually impaired users to perceive emotional changes in videos through sound. Future efforts will focus on enhancing model accuracy, developing a user-friendly interface, and evaluating the system's effectiveness, ultimately aiming to significantly improve the accessibility of video content for visually impaired individuals. | |||||||||
書誌レコードID | ||||||||||
収録物識別子タイプ | NCID | |||||||||
収録物識別子 | AN10438399 | |||||||||
書誌情報 |
研究報告オーディオビジュアル複合情報処理(AVM) 巻 2024-AVM-125, 号 27, p. 1-4, 発行日 2024-08-28 |
|||||||||
ISSN | ||||||||||
収録物識別子タイプ | ISSN | |||||||||
収録物識別子 | 2188-8582 | |||||||||
Notice | ||||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||||
出版者 | ||||||||||
言語 | ja | |||||||||
出版者 | 情報処理学会 |