ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 研究報告
  2. 音楽情報科学(MUS)
  3. 2021
  4. 2021-MUS-131

深層学習に基づく楽器音分類のための画像分類ネットワークを用いたファインチューニング

https://ipsj.ixsq.nii.ac.jp/records/211566
https://ipsj.ixsq.nii.ac.jp/records/211566
3e7ae714-57a3-4c44-8b8d-f44ad51397a2
名前 / ファイル ライセンス アクション
IPSJ-MUS21131057.pdf IPSJ-MUS21131057.pdf (2.6 MB)
Copyright (c) 2021 by the Institute of Electronics, Information and Communication Engineers This SIG report is only available to those in membership of the SIG.
MUS:会員:¥0, DLIB:会員:¥0
Item type SIG Technical Reports(1)
公開日 2021-06-11
タイトル
タイトル 深層学習に基づく楽器音分類のための画像分類ネットワークを用いたファインチューニング
タイトル
言語 en
タイトル Investigation on fine-tuning with image classification networks for deep neural network-based musical instrument classification
言語
言語 jpn
キーワード
主題Scheme Other
主題 一般発表
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_18gh
資源タイプ technical report
著者所属
東京都立大学大学院システムデザイン研究科情報科学域
著者所属
東京都立大学大学院システムデザイン研究科情報科学域
著者所属
東京都立大学大学院システムデザイン研究科情報科学域
著者所属
東京都立大学大学院システムデザイン研究科情報科学域
著者所属(英)
en
Department of Computer Science, Graduate School of Systems Design, Tokyo Metropolitan University
著者所属(英)
en
Department of Computer Science, Graduate School of Systems Design, Tokyo Metropolitan University
著者所属(英)
en
Department of Computer Science, Graduate School of Systems Design, Tokyo Metropolitan University
著者所属(英)
en
Department of Computer Science, Graduate School of Systems Design, Tokyo Metropolitan University
著者名 城間, 佑樹

× 城間, 佑樹

城間, 佑樹

Search repository
木下, 裕磨

× 木下, 裕磨

木下, 裕磨

Search repository
塩田, さやか

× 塩田, さやか

塩田, さやか

Search repository
貴家, 仁志

× 貴家, 仁志

貴家, 仁志

Search repository
著者名(英) Yuki, Shiroma

× Yuki, Shiroma

en Yuki, Shiroma

Search repository
Yuma, Kinoshita

× Yuma, Kinoshita

en Yuma, Kinoshita

Search repository
Sayaka, Shiota

× Sayaka, Shiota

en Sayaka, Shiota

Search repository
Hitoshi, Kiya

× Hitoshi, Kiya

en Hitoshi, Kiya

Search repository
論文抄録
内容記述タイプ Other
内容記述 本研究では,楽器音分類タスクに画像分類ネットワークを用いる際のファインチューニングのためのチャネル変換法の比較評価を行う.近年,環境音識別や感情認識など様々なタスクにおいて深層学習を用いた手法が提案されている.また,深層学習に用いる学習データが少ない場合に,画像分類タスクのネットワークでファインチューニングを行うことで音に関するタスクの性能が改善することが報告されている.音を入力とする場合は画像ネットワークの入力に対応させるためにスペクトログラムを用いることが多いが,スペクトログラムが 1 チャネルデータとなっているのに対し,画像の入力を前提にしたネットワークは RGB の 3 チャネルデータが入力されることを想定しているため,チャネル数を合わせる必要がある.チャネルを変換する手法としてこれまでに,各チャネルに同じデータを複製をする手法,動的特徴量を用いる手法,スペクトログラムをカラー画像化する手法などが提案されているが,手法の違いが精度にどの程度影響するか明らかにされていない.そこで本研究では,様々なチャネル変換法がファインチューニングの結果にどのような影響を与えるのかについて比較を行う.本実験では,ImageNet と呼ばれる大規模な画像データを用いて学習されたネットワークに対してファインチューニングを行い楽器音分類を行った.チャネル変換法として 6 種類の手法を比較したところ,実験結果よりカラー画像化が ImageNet に適していたことを報告する.
論文抄録(英)
内容記述タイプ Other
内容記述 In this paper, we investigate abilities of channel conversion methods for fine-tuning with image classification networks under deep neural network-based musical instrument classification. Recently, many deep neural network-based methods have been proposed for scene classification, emotion recognition tasks, and so on. It has also been reported that fine-tuning techniques with well-trained networks using large-scale image dataset improve the performance of sound classification tasks when the limited amount of training data is available. In this case, while a spectrogram extracted from sound data is usually regarded as an image and inputted to the fine-tuned networks with the image classification tasks, the spectrogram image is not suitable to the fine-tuned network because the input of the image classification networks assumes the three channel data like RGB. In this case, the spectrogram is required to be converted to the three channel data, and many methods such as spectrogram duplication method, a method using delta as coefficients and colorization of a spectrogram have been proposed. However, there is no discussion how these methods affect the accuracies. Therefore, we compare various channel conversion methods via fine-tuning of the image classification networks. In the experiments, we performed musical instrument classificaiton with fine-tuning of the well-trained networks by ImageNet. From the results, compared among six channel conversion methods, the colorization of a spectrogram was the most suitable for the fine-tuning with the image classification networks.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AN10438388
書誌情報 研究報告音楽情報科学(MUS)

巻 2021-MUS-131, 号 57, p. 1-5, 発行日 2021-06-11
ISSN
収録物識別子タイプ ISSN
収録物識別子 2188-8752
Notice
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-19 17:45:23.380005
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3