@techreport{oai:ipsj.ixsq.nii.ac.jp:00211632, author = {城間, 佑樹 and 木下, 裕磨 and 塩田, さやか and 貴家, 仁志 and Yuki, Shiroma and Yuma, Kinoshita and Sayaka, Shiota and Hitoshi, Kiya}, issue = {57}, month = {Jun}, note = {本研究では,楽器音分類タスクに画像分類ネットワークを用いる際のファインチューニングのためのチャネル変換法の比較評価を行う.近年,環境音識別や感情認識など様々なタスクにおいて深層学習を用いた手法が提案されている.また,深層学習に用いる学習データが少ない場合に,画像分類タスクのネットワークでファインチューニングを行うことで音に関するタスクの性能が改善することが報告されている.音を入力とする場合は画像ネットワークの入力に対応させるためにスペクトログラムを用いることが多いが,スペクトログラムが 1 チャネルデータとなっているのに対し,画像の入力を前提にしたネットワークは RGB の 3 チャネルデータが入力されることを想定しているため,チャネル数を合わせる必要がある.チャネルを変換する手法としてこれまでに,各チャネルに同じデータを複製をする手法,動的特徴量を用いる手法,スペクトログラムをカラー画像化する手法などが提案されているが,手法の違いが精度にどの程度影響するか明らかにされていない.そこで本研究では,様々なチャネル変換法がファインチューニングの結果にどのような影響を与えるのかについて比較を行う.本実験では,ImageNet と呼ばれる大規模な画像データを用いて学習されたネットワークに対してファインチューニングを行い楽器音分類を行った.チャネル変換法として 6 種類の手法を比較したところ,実験結果よりカラー画像化が ImageNet に適していたことを報告する., In this paper, we investigate abilities of channel conversion methods for fine-tuning with image classification networks under deep neural network-based musical instrument classification. Recently, many deep neural network-based methods have been proposed for scene classification, emotion recognition tasks, and so on. It has also been reported that fine-tuning techniques with well-trained networks using large-scale image dataset improve the performance of sound classification tasks when the limited amount of training data is available. In this case, while a spectrogram extracted from sound data is usually regarded as an image and inputted to the fine-tuned networks with the image classification tasks, the spectrogram image is not suitable to the fine-tuned network because the input of the image classification networks assumes the three channel data like RGB. In this case, the spectrogram is required to be converted to the three channel data, and many methods such as spectrogram duplication method, a method using delta as coefficients and colorization of a spectrogram have been proposed. However, there is no discussion how these methods affect the accuracies. Therefore, we compare various channel conversion methods via fine-tuning of the image classification networks. In the experiments, we performed musical instrument classificaiton with fine-tuning of the well-trained networks by ImageNet. From the results, compared among six channel conversion methods, the colorization of a spectrogram was the most suitable for the fine-tuning with the image classification networks.}, title = {深層学習に基づく楽器音分類のための画像分類ネットワークを用いたファインチューニング}, year = {2021} }