| Item type |
SIG Technical Reports(1) |
| 公開日 |
2022-11-17 |
| タイトル |
|
|
タイトル |
オンライン配信時の特定背景音除去のためのスペクトログラム画像を用いた深層学習の検討 |
| タイトル |
|
|
言語 |
en |
|
タイトル |
Deep Learning Model for Removal of Specific Background Sounds using Spectrogram Images on Online Broadcast |
| 言語 |
|
|
言語 |
jpn |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
| 著者所属 |
|
|
|
神奈川工科大学情報学部情報工学科 |
| 著者所属 |
|
|
|
神奈川工科大学情報学部情報工学科 |
| 著者所属 |
|
|
|
神奈川工科大学大学院情報工学専攻 |
| 著者所属 |
|
|
|
神奈川工科大学情報学部情報工学科 |
| 著者所属 |
|
|
|
神奈川工科大学情報学部情報工学科 |
| 著者所属(英) |
|
|
|
en |
|
|
Information and Computer Sciences, Kanagawa Institute of Technology |
| 著者所属(英) |
|
|
|
en |
|
|
Information and Computer Sciences, Kanagawa Institute of Technology |
| 著者所属(英) |
|
|
|
en |
|
|
Information and Computer Sciences, Graduate School, Kanagawa Institute of Technology |
| 著者所属(英) |
|
|
|
en |
|
|
Information and Computer Sciences, Kanagawa Institute of Technology |
| 著者所属(英) |
|
|
|
en |
|
|
Information and Computer Sciences, Kanagawa Institute of Technology |
| 著者名 |
渡邉, 大河
林, 堅
佐野, 将太
田中, 博
宮崎, 剛
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
オンラインによる会議や授業で意図せず混入してしまう音(背景音)を,深層学習を用いて除去する.この場合,除去したい背景音は一人一人異なる身近な特定の音となるため,ペット(猫と犬)の鳴き声と乳児の泣き声,インターホンの音を対象とする.話者音声に背景音が混入した音声信号に短時間フーリエ変換を適用してスペクトログラム画像を生成し,そこから話者の音声を残して背景音を除去するように学習を行う.深層学習モデルには U-Net を採用した.ペットの鳴き声は,同一個体でも感情や状況で声質が変化するため,周波数を変化させてデータ拡張を行い学習させた.背景音が混入したスペクトログラム画像を学習させた U-Net に入力し,その出力を逆短時間フーリエ変換して復元した音で背景音が除去されていることを確認できた. |
| 論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
This study aims to remove, by using Deep Learning, background sound that are unintentionally mixed on online meetings or classes. The mixed background sound is a specific sound that occurs near the speaker of which it varies depending on the surrounding environment. For these reasons, we selected pets (cat and dog) voice, baby crying and intercom sound as the targets. A short-time Fourier transform is applied to the speech signal in which background sounds are mixed to generate a spectrogram image. The U-Net, a deep learning model, is trained to retain the speaker's voice and remove background sounds. Since the pet voice is variable depending on emotions and situations even in the same individual, the voice data was augmented by adjusting the frequency, and was used as the training data. The spectrogram images mixed background sound was input into the trained U-Net, and sound was restored from the output images to which the inverse short-time Fourier transform was applied. Consequently, we confirmed that the background sound was removed from it. |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10438399 |
| 書誌情報 |
研究報告オーディオビジュアル複合情報処理(AVM)
巻 2022-AVM-119,
号 20,
p. 1-6,
発行日 2022-11-17
|
| ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8582 |
| Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |