WEKO3
アイテム
教師なし言語モデル適応のためのWeb Documentを用いた単語のトピック表現
https://ipsj.ixsq.nii.ac.jp/records/69916
https://ipsj.ixsq.nii.ac.jp/records/69916f5035619-e3c2-4151-9474-e49213f89a6d
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2010 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2010-07-15 | |||||||
タイトル | ||||||||
タイトル | 教師なし言語モデル適応のためのWeb Documentを用いた単語のトピック表現 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Topic Expression of Words using Web Documents for Unsupervised Language Model Adaptation | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | 言語モデル | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
東北大学大学院工学研究科 | ||||||||
著者所属 | ||||||||
東北大学大学院工学研究科 | ||||||||
著者所属 | ||||||||
東北大学大学院工学研究科 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Engineering, Tohoku University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Engineering, Tohoku University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Engineering, Tohoku University | ||||||||
著者名 |
増村, 亮
× 増村, 亮
|
|||||||
著者名(英) |
Ryo, Masumura
× Ryo, Masumura
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 我々は,Web 上の言語データを利用した言語モデル教師なし適応の高精度化を目指している.教師なし適応の場合,音声認識結果から話題に関連した検索クエリを作成することで Web 上から言語データをダウンロードする方法が一般的である.しかし,間接的な検索クエリを使用して未知語を含む言語データをダウンロードすることは非常に困難であった.そこで我々は,ある単語が出現する際の文脈を利用できるように,単語をクエリとして Web からダウンロードできる言語データを事前に単語と対応付ける方法を提案する.我々は形態素解析器が持つ全ての名詞に対して,事前に単語のトピックを表現した.この枠組みを利用して教師なしで適応実験を行い,本手法の有効性を確認した. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | We are developing a method of Web-based unsupervised language model adapatation. In the previous Web-based LM adaptation, search queries are composed from the automatic transcription of the input speech. However, it is difficult to gather documents that contain OOV words because the search queries do not contain any OOV words. For selecting relevant keywords from the transcription, we propose a method that associate each noun in the vocabulary with Web documents downloaded by that word. The downloaded documents are used to estimate the topic of the transcription. From the unsupervised LM adaptation method, we confirmed the effectiveness of the proposed method. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10442647 | |||||||
書誌情報 |
研究報告音声言語情報処理(SLP) 巻 2010-SLP-82, 号 18, p. 1-6, 発行日 2010-07-15 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |