WEKO3
アイテム
スライド情報を用いた言語モデル適応による講義の音声認識と字幕付与
https://ipsj.ixsq.nii.ac.jp/records/47838
https://ipsj.ixsq.nii.ac.jp/records/478386c8b8976-314c-4b26-b397-e463ace93322
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2007 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2007-05-25 | |||||||
タイトル | ||||||||
タイトル | スライド情報を用いた言語モデル適応による講義の音声認識と字幕付与 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Automatic Lecture Transcription by Exploiting Slide Information for Language Model Adaptation | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
京都大学 情報学研究科 知能情報学専攻 | ||||||||
著者所属 | ||||||||
京都大学 情報学研究科 知能情報学専攻 | ||||||||
著者所属 | ||||||||
京都大学 情報学研究科 知能情報学専攻 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
School of Informatics, Kyoto University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
School of Informatics, Kyoto University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
School of Informatics, Kyoto University | ||||||||
著者名 |
根本, 雄介
× 根本, 雄介
|
|||||||
著者名(英) |
Yusuke, Nemoto
× Yusuke, Nemoto
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 大学などの講義で使用されるスライドの情報を用いて、言語モデルを動的に適応することにより、音声認識の高精度化を実現する方法を述べる。まず、当該講義のスライド全体のテキストを用いて、PLSA (Probabilistic Latent Semantic Analysis) によりN-gramモデルのスケーリングを行う。次に、発話に対応する個々のスライドの情報を用いて、キャッシュモデルによりスライドに現れる単語の確率を強化し、認識結果のリスコアリングを行う。京都大学で行われた技術講習会と正規の講義を対象とした音声認識において評価を行った結果、PLSAによる大域的な適応とキャッシュモデルによる局所的な適応を組み合わせることにより、認識精度の有意な改善が得られた。特に、キーワードの検出で大きな改善が見られ、大学の講義でも80\%に近い精度を実現した。これに基づいて、講義に字幕を付与する試みを行った。 | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | We investigate several language model adaptation methods which exploits presentation slide information for automatic lecture transcription. First, N-gram probabilities are re-scaled with lecture-dependent unigram probabilities estimated by PLSA using all slides of the lecture. Then, N-best hypotheses of the initial speech recognition results are re-scored using word probabilities enhanced with a cache model using the slide corresponding to each utterance. Experimental evaluations on real lectures show that the proposed method with the combination of the global and local slide information achieves a significant improvement of recognition accuracy, especially detection rate of content keywords. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10115061 | |||||||
書誌情報 |
情報処理学会研究報告自然言語処理(NL) 巻 2007, 号 47(2007-NL-179), p. 91-96, 発行日 2007-05-25 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |