@techreport{oai:ipsj.ixsq.nii.ac.jp:00062681, author = {小林, 彰夫 and 奥, 貴裕 and 本間, 真一 and 佐藤, 庄衛 and 今井, 亨 and 都木, 徹 and Akio, Kobayashi and Takahiro, Oku and Shinich, Homma and Shoei, Sato and Toru, Imai and Tohru, Takagi}, issue = {20}, month = {Jul}, note = {本報告では,放送コンテンツ活用のための報道番組自動書き起こしシステムについて述べる.本システムは,音声認識のための学習・評価データを収集したり,放送番組に付与するメタデータを抽出・制作するために,報道番組の音声を随時認識して,映像・音声とともに認識結果を蓄積する.音声認識は,音楽箇所・男女の発話区間の検出を行いながらリアルタイムでデコードを行い,デコードと並行して,話者識別により発話に話者タグを付与する.言語モデルは,ウェブ上のニューステキストを取得して随時更新される.また,音声認識により得られたラティスをコンフュージョンネットワークに圧縮し,キーワード検索用のインデックスを生成する.本システムを用いてニュース 53 番組の評価を行ったところ,単語誤り率は 9.2% となった.また,unigram クエリを用いたキーワード検索の結果,F 値は約 95 となった., This paper describes a new transcription system for content application. The system archives broadcast news programs with their transcriptions and speaker tags with the aim of getting a collection of training and evaluation data for acoustic and language models. Besides it is also utilized for extracting and describing metadata for TV programs. The system has the functions of music and speech detection during dual-gender decoding, speaker diarization, and automatic language model updating for upcoming news shows. Trigram lattices are compressed into confusion networks that are indexed for known item retrieval. The system achieved a 9.2 % of word error rate and a 95 of F-measure in evaluation of known item retrieval for 53 Japanese broadcast news shows.}, title = {コンテンツ活用のための報道番組自動書き起こしシステム}, year = {2009} }