| Item type |
SIG Technical Reports(1) |
| 公開日 |
2024-02-22 |
| タイトル |
|
|
タイトル |
車内環境における音声認識のための多チャンネルブラインド音源分離の性能評価 |
| タイトル |
|
|
言語 |
en |
|
タイトル |
Evaluations of Multi-channel Blind Source Separation for Speech Recognition in Car Environments |
| 言語 |
|
|
言語 |
jpn |
| キーワード |
|
|
主題Scheme |
Other |
|
主題 |
ポスターセッション3 EA/SIP |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
| 著者所属 |
|
|
|
東京都立大学システムデザイン学部 |
| 著者所属 |
|
|
|
東京都立大学システムデザイン学部 |
| 著者所属 |
|
|
|
東京都立大学システムデザイン学部 |
| 著者所属 |
|
|
|
株式会社ミライズテクノロジーズ センサ開発部 |
| 著者所属 |
|
|
|
株式会社ミライズテクノロジーズ センサ開発部 |
| 著者所属 |
|
|
|
株式会社ミライズテクノロジーズ センサ開発部 |
| 著者所属(英) |
|
|
|
en |
|
|
Faculty of Systems Design, Tokyo Metropolitan University |
| 著者所属(英) |
|
|
|
en |
|
|
Faculty of Systems Design, Tokyo Metropolitan University |
| 著者所属(英) |
|
|
|
en |
|
|
Faculty of Systems Design, Tokyo Metropolitan University |
| 著者所属(英) |
|
|
|
en |
|
|
Sensor R&D Div., MIRISE Technologies |
| 著者所属(英) |
|
|
|
en |
|
|
Sensor R&D Div., MIRISE Technologies |
| 著者所属(英) |
|
|
|
en |
|
|
Sensor R&D Div., MIRISE Technologies |
| 著者名 |
竹内, 柚月
植野, 夏樹
小野, 順貴
高沢, 剛史
島ノ江, 修平
種村, 友貴
|
| 著者名(英) |
Yutsuki, Takeuchi
Natsuki, Ueno
Nobutaka, Ono
Takashi, Takazawa
Shuhei, Shimanoe
Tomoki, Tanemura
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
車内環境では,様々な種類の雑音が重畳するため音声認識が困難となる.これに対し,多チャンネルマイクを利用できる場合には,ビームフォーミングやブラインド音源分離による音声強調により認識率の向上が期待できる.本研究では,車内環境において多チャンネル収録した音声データに対して,補助関数型独立ベクトル分析(Auxiliary-function-based Independent Vector Analysis: AuxIVA),独立低ランク行列分析(Independent Low-Rank Matrix Analysis: ILRMA)を用いた音源分離を適用し,音声認識性能の評価を行った.また,線形時不変な分離フィルタの性能限界を測るため,真の目的音及び雑音を用いて理想的な SNR 最大化ビームフォーマを設計し,あわせて評価を行った.性能評価には,信号対歪み比(Signal-to-Distortion Ratio: SDR)の改善量及び音声認識率を用いた.実験結果として,AuxIVA,ILRMA の SDR の平均改善量はそれぞれ 17.26 dB,19.36 dB,音声認識率の平均値はそれぞれ 0.819,0.813 となった. |
| 論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
In car environments, speech recognition is difficult due to various types of noise. For this issue, speech enhancement by beamformer or blind source separation using multi-channel microphone has been studied. In this study, we evaluate the performance of source separation by Auxiliary-function-based Independent Vector Analysis (AuxIVA) and Independent Low-Rank Matrix Analysis (ILRMA). In addition, we also evaluated maximum SNR beamformer, which is designed using true clean and noise data, to estimate the performance limit. As evaluation criteria, we used signal-to-distortion ratio improvement (SDRi) and accuracy of speech recognition. As a result, SDRi for AuxIVA and ILRMA was 17.26 dB and 19.36 dB, respectively, and average accuracy was 0.819 and 0.813. |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
| 書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2024-SLP-151,
号 83,
p. 1-6,
発行日 2024-02-22
|
| ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
| Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |