@techreport{oai:ipsj.ixsq.nii.ac.jp:00209821, author = {馬田, 英雄 and 青野, 雅樹 and Hideo, Umada and Masaki, Aono}, issue = {23}, month = {Feb}, note = {近年,コンピュータビジョンや自然言語処理の分野で深層学習の研究が著しく成長しており,様々な分野で人工知能の応用について期待が高まっている.それに伴いコンピュータビジョンと自然言語処理の双方の技術が要求される研究である Visual QA を医療分野に応用した VQA-Med タスクに対する研究需要が高まっている.医療画像には X 線画像,MRI 画像,CT 画像などの多様なモダリティの画像が存在する.本研究では QA 問題を分類問題とみなし,多様な医療画像に対して効果的な特徴量を得るための手法と,画像と質問のマルチモーダルな関係を学習する際に用いる特徴量合成手法である Feature Fusion Networks を提案する.VQA-Med2020 データセットを用いて,システムの実験・評価を行った結果,新たな知見が得られたのでこれを報告する., In recent years, there has been a remarkable growth in research on deep learning in the fields of computer vision and natural language processing, and there are growing expectations about the application of artificial intelligence in various fields. As a result, there is a growing demand for research on the VQA-Med task, which is an application of Visual QA, a research that requires both computer vision and natural language processing techniques, to the medical field. Medical images include images from various modalities such as X-ray images, MRI images, and CT images. In this study, we consider QA problems as classification problems and propose a method for obtaining effective features for a variety of medical images and a feature synthesis method, Feature Fusion Networks, for learning multimodal relationships between images and questions. Using the VQA-Med2020 dataset, we experimented with and evaluated the system, and reported on the new findings.}, title = {Feature Fusion Networksを導入した多様な医療画像に対するVisual QAシステム}, year = {2021} }