wav2vec 2.0の事前学習モデルを用いた咽喉マイク音声認識

増田, 光汰; 緒方, 淳; 西田, 昌史; 綱川, 隆司; 西村, 雅史

WEKO3

インデックスツリー

RootNode

アイテム

wav2vec 2.0の事前学習モデルを用いた咽喉マイク音声認識

https://ipsj.ixsq.nii.ac.jp/records/220891

名前 / ファイル	ライセンス	アクション
IPSJ-Z84-1R-04.pdf (948.9 kB)	Copyright (c) 2022 by the Information Processing Society of Japan

Item type

National Convention(1)

公開日

2022-02-17

タイトル

wav2vec 2.0の事前学習モデルを用いた咽喉マイク音声認識

言語

jpn

キーワード

主題Scheme

Other

主題

人工知能と認知科学

資源タイプ

資源タイプ識別子

http://purl.org/coar/resource_type/c_5794

資源タイプ

conference paper

著者所属

静岡大

著者所属

産総研

著者所属

静岡大

著者所属

静岡大

著者所属

静岡大

著者名

増田, 光汰
緒方, 淳
西田, 昌史
綱川, 隆司
西村, 雅史

論文抄録

内容記述タイプ

Other

内容記述

咽喉マイク音声は外部雑音の影響を受けにくいため、多人数会話や高雑音環境下での音声認識に適している。しかし接話マイク音声と比較して音響特徴量が異なり、一般的な音声認識モデルで咽喉マイク音声を認識することは困難である。このことから咽喉マイク音声に適した音声認識モデルを作成する必要があるが、十分な精度の音声認識モデルを構築するために必要な大規模な文字起こし咽喉マイク音声データベースが存在しない。そこで本稿では、少量のラベル付きデータでも十分な精度の音声認識モデルを作成することができる手法として提案されたwav2vec 2.0に着目し、wav2vec2.0の事前学習モデルに対して咽喉マイク音声でファインチューニングを行うことによって、咽喉マイク音声のデータ量不足という問題点を解決することが可能か検討した。

書誌レコードID

収録物識別子タイプ

NCID

収録物識別子

AN00349328

書誌情報

第84回全国大会講演論文集

巻 2022, 号 1, p. 289-290, 発行日 2022-02-17

出版者

言語

出版者

情報処理学会

戻る

views

See details

	Views

Versions

Ver.1

2025-01-19 14:23:00.104073

Show All versions

Cite as

増田, 光汰, 緒方, 淳, 西田, 昌史, 綱川, 隆司, 西村, 雅史, 2022, wav2vec 2.0の事前学習モデルを用いた咽喉マイク音声認識: 情報処理学会, 289–290 p.

エクスポート

OAI-PMH

JPCOAR
DublinCore
DDI

Other Formats

JSON
BIBTEX

インデックスリンク

インデックスツリー

アイテム

wav2vec 2.0の事前学習モデルを用いた咽喉マイク音声認識

× 増田, 光汰

× 緒方, 淳

× 西田, 昌史

× 綱川, 隆司

× 西村, 雅史

Versions

Share

Cite as

エクスポート