2024-03-29T07:15:06Zhttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_oaipmhoai:ipsj.ixsq.nii.ac.jp:000485242023-04-27T10:00:04Z01164:04179:04229:04233
講演スタイルの解説番組を対象にした音声認識の検討An Examination of Speech Recognition for Broadcast Commentary of Lecture Stylejpnhttp://id.nii.ac.jp/1001/00048524/Technical Reporthttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_action_common_download&item_id=48524&item_no=1&attribute_id=1&file_no=1Copyright (c) 2001 by the Information Processing Society of JapanNHK放送技術研究所NHK放送技術研究所NHK放送技術研究所NHK放送技術研究所NHK放送技術研究所豊橋技術科学大学情報工学系豊橋技術科学大学情報工学系本間真一小林, 彰夫佐藤庄衛今井, 亨安藤, 彰男宇津呂, 武仁中川, 聖一我々は、ニュース解説を対象にした音声認識の研究を行っている。これまでの研究では、解説音声は原稿読み上げ音声と異なる音響的特徴および言語的特徴をもつことや、学習データ量も不足していることから、まだ十分な認識精度は得られていない。そこで本稿では、比較的多くのデータ量が得られる講演スタイルの解説番組「あすを読む」を対象にした音声認識について検討を行う。ニュース原稿と「あすを読む」の書き起こしの混合による言語モデルの適応化、言語モデルの学習テキストと発音辞書におけるフィラーの扱いの見直し、音響モデルの話者適応などを行った結果、単語正解精度が67.4%から84.9 %まで改善した。We are studying speech recognition for news commentary. So far we haven’t achieved satisfied accuracy for it, because speech of news commentary has different linguistic and acoustic features from read speech and supplies insufficient training data. Therefore, this paper treats speech recognition of a broadcast commentary program called “Asu wo Yomu (Reading Tomorrow)”, which has rather more training data. We adapted language models by mixing the news manuscripts and transcriptions of “Asu wo Yomu” in their training texts, changed how to treat pause fillers in the training texts and word lexicon, and carried out speaker adaptation of acoustic models and so on. As a result, we improved the word accuracy from 67.4% to 84.9%.AN10115061情報処理学会研究報告自然言語処理(NL)200154(2001-NL-143)69742001-05-312009-06-30