WEKO3
アイテム
BARTを用いた音声認識誤り訂正のオンライン適応手法の検討
https://ipsj.ixsq.nii.ac.jp/records/220340
https://ipsj.ixsq.nii.ac.jp/records/2203402520e70c-b6ac-4c77-9ca3-4584e17b14c4
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2022 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||||
---|---|---|---|---|---|---|---|---|---|---|
公開日 | 2022-10-15 | |||||||||
タイトル | ||||||||||
タイトル | BARTを用いた音声認識誤り訂正のオンライン適応手法の検討 | |||||||||
言語 | ||||||||||
言語 | jpn | |||||||||
キーワード | ||||||||||
主題Scheme | Other | |||||||||
主題 | 音声認識 | |||||||||
資源タイプ | ||||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||||
資源タイプ | technical report | |||||||||
著者所属 | ||||||||||
株式会社東芝研究開発センター知能化システム研究所メディアAIラボラトリー | ||||||||||
著者所属 | ||||||||||
株式会社東芝研究開発センター知能化システム研究所メディアAIラボラトリー | ||||||||||
著者名 |
芦川, 平
× 芦川, 平
× 岩田, 憲治
|
|||||||||
論文抄録 | ||||||||||
内容記述タイプ | Other | |||||||||
内容記述 | テレビ番組等の字幕制作において,音声認識技術を活用して,自動で字幕を生成する技術がある.近年,深層学習技術の発展により音声認識の精度は向上しているが,専門用語を含む発話や表記ゆれなどが原因で,音声認識の結果を人手で訂正する必要がある.しかし,認識結果を訂正しても,次の発話でも同じように訂正する必要があるため,修正コストが高い.そこで,今回,音声認識結果を訂正した場合に,即時に訂正結果が反映され,次の発話以降では,音声認識が同じような誤りをした場合に自動で訂正するオンライン適応手法を検討した.とくに,文訂正タスク等で近年採用されている事前学習モデル BART(Bidirectional and Auto-Regressive Transformers)を訂正モデルとして利用することを試みた.実験の結果,14 のニュース番組での字幕制作において,訂正モデルを用いないベースラインと比較した場合に,通常サイズの訂正モデルではエラー削減率が平均 2.28%,モデルサイズが大きい BART Large を用いた場合では,エラー削減率が平均 7.84% となり,訂正モデルの効果が確認できた.また,オンライン適応においても,類似の内容を分けて放送するニュース番組等では,本手法の有効性が確認できた. | |||||||||
書誌レコードID | ||||||||||
収録物識別子タイプ | NCID | |||||||||
収録物識別子 | AN10442647 | |||||||||
書誌情報 |
研究報告音声言語情報処理(SLP) 巻 2022-SLP-143, 号 4, p. 1-5, 発行日 2022-10-15 |
|||||||||
ISSN | ||||||||||
収録物識別子タイプ | ISSN | |||||||||
収録物識別子 | 2188-8663 | |||||||||
Notice | ||||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||||
出版者 | ||||||||||
言語 | ja | |||||||||
出版者 | 情報処理学会 |