ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 研究報告
  2. 自然言語処理(NL)
  3. 2007
  4. 47(2007-NL-179)

スライド情報を用いた言語モデル適応による講義の音声認識と字幕付与

https://ipsj.ixsq.nii.ac.jp/records/47838
https://ipsj.ixsq.nii.ac.jp/records/47838
6c8b8976-314c-4b26-b397-e463ace93322
名前 / ファイル ライセンス アクション
IPSJ-NL07179016.pdf IPSJ-NL07179016.pdf (530.0 kB)
Copyright (c) 2007 by the Information Processing Society of Japan
オープンアクセス
Item type SIG Technical Reports(1)
公開日 2007-05-25
タイトル
タイトル スライド情報を用いた言語モデル適応による講義の音声認識と字幕付与
タイトル
言語 en
タイトル Automatic Lecture Transcription by Exploiting Slide Information for Language Model Adaptation
言語
言語 jpn
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_18gh
資源タイプ technical report
著者所属
京都大学 情報学研究科 知能情報学専攻
著者所属
京都大学 情報学研究科 知能情報学専攻
著者所属
京都大学 情報学研究科 知能情報学専攻
著者所属(英)
en
School of Informatics, Kyoto University
著者所属(英)
en
School of Informatics, Kyoto University
著者所属(英)
en
School of Informatics, Kyoto University
著者名 根本, 雄介 河原達也 秋田祐哉

× 根本, 雄介 河原達也 秋田祐哉

根本, 雄介
河原達也
秋田祐哉

Search repository
著者名(英) Yusuke, Nemoto Yuya, Akita Tatsuya, Kawahara

× Yusuke, Nemoto Yuya, Akita Tatsuya, Kawahara

en Yusuke, Nemoto
Yuya, Akita
Tatsuya, Kawahara

Search repository
論文抄録
内容記述タイプ Other
内容記述 大学などの講義で使用されるスライドの情報を用いて、言語モデルを動的に適応することにより、音声認識の高精度化を実現する方法を述べる。まず、当該講義のスライド全体のテキストを用いて、PLSA (Probabilistic Latent Semantic Analysis) によりN-gramモデルのスケーリングを行う。次に、発話に対応する個々のスライドの情報を用いて、キャッシュモデルによりスライドに現れる単語の確率を強化し、認識結果のリスコアリングを行う。京都大学で行われた技術講習会と正規の講義を対象とした音声認識において評価を行った結果、PLSAによる大域的な適応とキャッシュモデルによる局所的な適応を組み合わせることにより、認識精度の有意な改善が得られた。特に、キーワードの検出で大きな改善が見られ、大学の講義でも80\%に近い精度を実現した。これに基づいて、講義に字幕を付与する試みを行った。
論文抄録(英)
内容記述タイプ Other
内容記述 We investigate several language model adaptation methods which exploits presentation slide information for automatic lecture transcription. First, N-gram probabilities are re-scaled with lecture-dependent unigram probabilities estimated by PLSA using all slides of the lecture. Then, N-best hypotheses of the initial speech recognition results are re-scored using word probabilities enhanced with a cache model using the slide corresponding to each utterance. Experimental evaluations on real lectures show that the proposed method with the combination of the global and local slide information achieves a significant improvement of recognition accuracy, especially detection rate of content keywords.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AN10115061
書誌情報 情報処理学会研究報告自然言語処理(NL)

巻 2007, 号 47(2007-NL-179), p. 91-96, 発行日 2007-05-25
Notice
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-22 08:48:39.454535
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3