Item type |
National Convention(1) |
公開日 |
2022-02-17 |
タイトル |
|
|
タイトル |
深層フルランク空間相関分析に基づく遠隔音声認識のフロントエンド |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
人工知能と認知科学 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_5794 |
|
資源タイプ |
conference paper |
著者所属 |
|
|
|
東京工業大/産業技術総合研究所 |
著者所属 |
|
|
|
産総研 |
著者所属 |
|
|
|
東工大 |
著者所属 |
|
|
|
東工大 |
著者所属 |
|
|
|
東京工業大/HRI-JP |
著者名 |
合澤, 隆拓
坂東, 宜昭
糸山, 克寿
西田, 健次
中臺, 一博
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
雑踏環境下でも頑健な音声認識をする実現するには,音源分離により目的音源を抽出するフロントエンドが不可欠である.このような音源分離は,学習コストの観点から教師なしでの動作が望ましく,混合複素角度中心ガウス法や多チャネル非負値行列因子分解といった線形型確率モデルに基づく手法が提案されていた.本稿では,より高い表現能力をもつ深層フルランク空間相関分析 (neural FCA) に基づくフロントエンドを提案する.Neural FCAは,フルランク空間モデルと深層音源モデルを統合した非線形型確率モデルであり,従来の枠組みより精緻な分離性能を教師なしで獲得できる.Neural FCAを多人数対話のための音声認識フロントエンドとして拡張し,拡散性雑音を含む複数話者の混合音で評価した認識性能を報告する. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN00349328 |
書誌情報 |
第84回全国大会講演論文集
巻 2022,
号 1,
p. 285-286,
発行日 2022-02-17
|
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |