WEKO3
アイテム
ニュース番組自動字幕化のための音声認識システム
https://ipsj.ixsq.nii.ac.jp/records/57670
https://ipsj.ixsq.nii.ac.jp/records/57670d3d92c13-add3-45d8-a2e2-dccd5a9b302d
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 1998 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 1998-10-16 | |||||||
タイトル | ||||||||
タイトル | ニュース番組自動字幕化のための音声認識システム | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | A Broadcast News Transcription System for Captioning | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
NHK放送技術研究所 | ||||||||
著者所属 | ||||||||
NHK放送技術研究所 | ||||||||
著者所属 | ||||||||
NHK放送技術研究所 | ||||||||
著者所属 | ||||||||
NHK放送技術研究所 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
NHK (Japan Broadcasting Corp.) Science & Technical Research Laboratories | ||||||||
著者所属(英) | ||||||||
en | ||||||||
NHK (Japan Broadcasting Corp.) Science & Technical Research Laboratories | ||||||||
著者所属(英) | ||||||||
en | ||||||||
NHK (Japan Broadcasting Corp.) Science & Technical Research Laboratories | ||||||||
著者所属(英) | ||||||||
en | ||||||||
NHK (Japan Broadcasting Corp.) Science & Technical Research Laboratories | ||||||||
著者名 |
今井, 亨
× 今井, 亨
|
|||||||
著者名(英) |
Toru, Imai
× Toru, Imai
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 高齢者や聴覚障害者への放送サービスを充実させるため、音声認識を利用した放送番組の自動字幕化を検討している。本報告では、現在開発中のニュース音声認識システムの概要を述べる。アナウンサーの音声を認識するデコーダーは、bigramを用いた単語依存N-bestに基づく第1パスと、trigramによるリスコアリングの第2パスで構成される。語彙サイズを5Kから65Kまで変化させ、音素ネットワークがリニアと木構造の場合について、認識率と処理時間を調べた。さらに、ニュースの特徴を生かした時期依存言語モデルと、電子原稿を利用した認識結果の修正について述べる。 | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | Automatic captioning for TV shows is required by old ages and hearing impaired. This paper describes a broadcast news transcription system for captioning, which is under development. A decoder converting announcers' speech into texts consists of two passes: the first pass based on world-dependent N-best search with bigram and the second pass for rescoring with trigram. Recognition accuracy and processing time were examined with a linear structured or tree structured phoneme network for some vocabulary sizes from 5K to 65K. This paper also describes a time dependent language model updated with latest news and post-correction of the transcriptions by electronic draft scripts. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10442647 | |||||||
書誌情報 |
情報処理学会研究報告音声言語情報処理(SLP) 巻 1998, 号 95(1998-SLP-023), p. 59-64, 発行日 1998-10-16 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |