WEKO3
アイテム
マルチモーダル学習を用いた日本語読唇技術の研究
https://ipsj.ixsq.nii.ac.jp/records/236098
https://ipsj.ixsq.nii.ac.jp/records/236098b120ef6d-de27-4018-a940-ec7618760ca3
| 名前 / ファイル | ライセンス | アクション |
|---|---|---|
|
|
Copyright (c) 2024 by the Information Processing Society of Japan
|
| Item type | National Convention(1) | |||||||
|---|---|---|---|---|---|---|---|---|
| 公開日 | 2024-03-01 | |||||||
| タイトル | ||||||||
| タイトル | マルチモーダル学習を用いた日本語読唇技術の研究 | |||||||
| 言語 | ||||||||
| 言語 | jpn | |||||||
| キーワード | ||||||||
| 主題Scheme | Other | |||||||
| 主題 | 人工知能と認知科学 | |||||||
| 資源タイプ | ||||||||
| 資源タイプ識別子 | http://purl.org/coar/resource_type/c_5794 | |||||||
| 資源タイプ | conference paper | |||||||
| 著者所属 | ||||||||
| 帝京大 | ||||||||
| 著者名 |
宋, 源易
× 宋, 源易
|
|||||||
| 論文抄録 | ||||||||
| 内容記述タイプ | Other | |||||||
| 内容記述 | 聴覚障害者のコミュニケーション支援や,高騒音環境下での音声認識精度の向上を目的として,日本語読唇技術の研究を行っている。既存の研究では、日本語読唇の誤り率が82.6%と高い一方、英語の最新研究では26.9%にまで向上している。本研究では、英語で事前訓練されたav-hubertモデルにAdaINを組み込むことで読唇誤り率の改善を行った。さらに、ビデオデータ拡張と、日本語テキスト処理の改善を行うことで、ITAコーパスデータセットで5.48%、rohan4600で71.11%の誤り率を達成した。これにより、新しい手法やデータ処理手法が日本語読唇の精度向上に寄与することが明らかにした。 | |||||||
| 書誌レコードID | ||||||||
| 収録物識別子タイプ | NCID | |||||||
| 収録物識別子 | AN00349328 | |||||||
| 書誌情報 |
第86回全国大会講演論文集 巻 2024, 号 1, p. 519-520, 発行日 2024-03-01 |
|||||||
| 出版者 | ||||||||
| 言語 | ja | |||||||
| 出版者 | 情報処理学会 | |||||||