Item type |
SIG Technical Reports(1) |
公開日 |
2021-06-11 |
タイトル |
|
|
タイトル |
深層学習に基づく楽器音分類のための画像分類ネットワークを用いたファインチューニング |
タイトル |
|
|
言語 |
en |
|
タイトル |
Investigation on fine-tuning with image classification networks for deep neural network-based musical instrument classification |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
一般発表 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
東京都立大学大学院システムデザイン研究科情報科学域 |
著者所属 |
|
|
|
東京都立大学大学院システムデザイン研究科情報科学域 |
著者所属 |
|
|
|
東京都立大学大学院システムデザイン研究科情報科学域 |
著者所属 |
|
|
|
東京都立大学大学院システムデザイン研究科情報科学域 |
著者所属(英) |
|
|
|
en |
|
|
Department of Computer Science, Graduate School of Systems Design, Tokyo Metropolitan University |
著者所属(英) |
|
|
|
en |
|
|
Department of Computer Science, Graduate School of Systems Design, Tokyo Metropolitan University |
著者所属(英) |
|
|
|
en |
|
|
Department of Computer Science, Graduate School of Systems Design, Tokyo Metropolitan University |
著者所属(英) |
|
|
|
en |
|
|
Department of Computer Science, Graduate School of Systems Design, Tokyo Metropolitan University |
著者名 |
城間, 佑樹
木下, 裕磨
塩田, さやか
貴家, 仁志
|
著者名(英) |
Yuki, Shiroma
Yuma, Kinoshita
Sayaka, Shiota
Hitoshi, Kiya
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
本研究では,楽器音分類タスクに画像分類ネットワークを用いる際のファインチューニングのためのチャネル変換法の比較評価を行う.近年,環境音識別や感情認識など様々なタスクにおいて深層学習を用いた手法が提案されている.また,深層学習に用いる学習データが少ない場合に,画像分類タスクのネットワークでファインチューニングを行うことで音に関するタスクの性能が改善することが報告されている.音を入力とする場合は画像ネットワークの入力に対応させるためにスペクトログラムを用いることが多いが,スペクトログラムが 1 チャネルデータとなっているのに対し,画像の入力を前提にしたネットワークは RGB の 3 チャネルデータが入力されることを想定しているため,チャネル数を合わせる必要がある.チャネルを変換する手法としてこれまでに,各チャネルに同じデータを複製をする手法,動的特徴量を用いる手法,スペクトログラムをカラー画像化する手法などが提案されているが,手法の違いが精度にどの程度影響するか明らかにされていない.そこで本研究では,様々なチャネル変換法がファインチューニングの結果にどのような影響を与えるのかについて比較を行う.本実験では,ImageNet と呼ばれる大規模な画像データを用いて学習されたネットワークに対してファインチューニングを行い楽器音分類を行った.チャネル変換法として 6 種類の手法を比較したところ,実験結果よりカラー画像化が ImageNet に適していたことを報告する. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
In this paper, we investigate abilities of channel conversion methods for fine-tuning with image classification networks under deep neural network-based musical instrument classification. Recently, many deep neural network-based methods have been proposed for scene classification, emotion recognition tasks, and so on. It has also been reported that fine-tuning techniques with well-trained networks using large-scale image dataset improve the performance of sound classification tasks when the limited amount of training data is available. In this case, while a spectrogram extracted from sound data is usually regarded as an image and inputted to the fine-tuned networks with the image classification tasks, the spectrogram image is not suitable to the fine-tuned network because the input of the image classification networks assumes the three channel data like RGB. In this case, the spectrogram is required to be converted to the three channel data, and many methods such as spectrogram duplication method, a method using delta as coefficients and colorization of a spectrogram have been proposed. However, there is no discussion how these methods affect the accuracies. Therefore, we compare various channel conversion methods via fine-tuning of the image classification networks. In the experiments, we performed musical instrument classificaiton with fine-tuning of the well-trained networks by ImageNet. From the results, compared among six channel conversion methods, the colorization of a spectrogram was the most suitable for the fine-tuning with the image classification networks. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10438388 |
書誌情報 |
研究報告音楽情報科学(MUS)
巻 2021-MUS-131,
号 57,
p. 1-5,
発行日 2021-06-11
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8752 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |