Item type |
SIG Technical Reports(1) |
公開日 |
2022-11-22 |
タイトル |
|
|
タイトル |
前後の発話を文脈として考慮するニューラル音声認識誤り訂正 |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
対話 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
東京大学 |
著者所属 |
|
|
|
東京大学 |
著者所属 |
|
|
|
東京大学 |
著者所属 |
|
|
|
東京大学生産技術研究所 |
著者名 |
中村, 朝陽
李, 聖民
田村, 鴻希
吉永, 直樹
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
Youtube などの動画共有プラットフォームの発達や,コロナ禍におけるオンライン授業や会議の増加に伴い,音声言語情報を含む膨大なマルチメディアデータが集積されるようになっている.このようなマルチメディアデータへのアクセスを容易にするためには,音声認識で字幕を付与することが有用であるが,既存の音声認識技術は認識のリアルタイム性に焦点を当てて局所的な発話文脈のみを考慮して認識を行っており,集積された音声言語データを書き起こす上で妥当な設定で研究されていない.そこで本研究では,前後の発話を考慮して音声認識の誤り訂正を行うタスクを設定し,テキスト生成技術を用いてこれを解く手法を提案する.具体的には,事前学習済みモデル T5 を用いて,前後発話の音声認識結果を追加で入力して発話の音声認識誤り訂正を行う.実験では,汎用のオープンソース音声認識モデル NVIDIA STT Conformer-CTC Large による音声認識結果に提案手法を適用し,前発話,後発話,またそれらの組み合わせについて,発話数を変化させたときの効果について検証する. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10115061 |
書誌情報 |
研究報告自然言語処理(NL)
巻 2022-NL-254,
号 13,
p. 1-7,
発行日 2022-11-22
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8779 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |