| Item type |
SIG Technical Reports(1) |
| 公開日 |
2018-02-13 |
| タイトル |
|
|
タイトル |
全層ゲート付き2次元畳み込みネットワークによる多重音信号の音高認識 |
| 言語 |
|
|
言語 |
jpn |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
| 著者所属 |
|
|
|
東京工業大学 |
| 著者所属 |
|
|
|
日本電信電話株式会社NTTコミュニケーション基礎研究所 |
| 著者所属 |
|
|
|
東京工業大学 |
| 著者所属(英) |
|
|
|
en |
|
|
Tokyo Institute of Technology |
| 著者所属(英) |
|
|
|
en |
|
|
NTT Communication Science Laboratories, Nippon Telegraph and Telephone Corporation |
| 著者所属(英) |
|
|
|
en |
|
|
Tokyo Institute of Technology |
| 著者名 |
生田目, 敬弘
亀岡, 弘和
篠田, 浩一
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
音楽は音高方向 (和音構成,調波構造) と時間方向 (旋律,リズム) の 2 次元構造を有する.我々は,音楽音響信号の音高認識の問題を音響スペクトログラムに対する音高ラベルの 2 次元的な配置問題と捉え,多重音信号の対数周波数スペクトログラムから直接音高認識を行う全層ゲート付き 2 次元畳み込みネットワークを提案する.全層がゲート付き 2 次元畳み込みネットワークで構成され,楽音の音響スペクトログラムと音楽の 2 次元構造を各層で表現する.従来の確率的潜在成分分析手法と比較し,Bach10 データセットにおいて従来手法の音符単位 F1 スコア 65.0% を 8.3% ポイント上回る 73.3% の性能を得た.また,室内楽データセットを新たに構築し,モデルの学習に用いた. |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
| 書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2018-SLP-120,
号 12,
p. 1-7,
発行日 2018-02-13
|
| ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
| Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |