統計的言語モデルにおける高頻度形態素連鎖の辞書登録に関する一考察

小林, 紀彦; 中野, 裕一郎; 和田, 陽介; 小林, 哲則; Norihiko, Kobayashi; Yuichiro, Nakano; Yosuke, Wada; Tetsunori, Kobayashi

WEKO3

インデックスツリー

RootNode

アイテム

統計的言語モデルにおける高頻度形態素連鎖の辞書登録に関する一考察

https://ipsj.ixsq.nii.ac.jp/records/57706

名前 / ファイル	ライセンス	アクション
IPSJ-SLP97020005.pdf (970.0 kB)	Copyright (c) 1998 by the Information Processing Society of Japan
オープンアクセス

Item type

SIG Technical Reports(1)

公開日

1998-02-05

タイトル

統計的言語モデルにおける高頻度形態素連鎖の辞書登録に関する一考察

タイトル

言語

タイトル

A Study on Word Unit Selection for LVCSR using Entropy and Frequency of Phrase Observation

言語

jpn

資源タイプ

資源タイプ識別子

http://purl.org/coar/resource_type/c_18gh

資源タイプ

technical report

著者所属

早稲田大学理工学部

著者所属

早稲田大学理工学部

著者所属

早稲田大学理工学部

著者所属

早稲田大学理工学部

著者所属(英)

School of Science and Engineering, Waseda University

著者所属(英)

School of Science and Engineering, Waseda University

著者所属(英)

School of Science and Engineering, Waseda University

著者所属(英)

School of Science and Engineering, Waseda University

著者名

小林, 紀彦中野, 裕一郎和田, 陽介小林, 哲則

著者名(英)

Norihiko, Kobayashi Yuichiro, Nakano Yosuke, Wada Tetsunori, Kobayashi

論文抄録

内容記述タイプ

Other

内容記述

大語業連続音声認識において、学習テキスト中に頻出する形態素連鎖語を辞書登録することの効果を検証する。n?gram　言語モデルにおいて認識単位に形態素を利用することが一般的であるが、出現頻度の高い形態素連鎖語を新たな認識単位に加えることにより、言語モデルのテストセットパープレキシティは、形態素単位のみの場合と比較して、最大で約13%の低下　(igra)　がみられ、連続音声認識実験においても約4%の認識率の向上が得られた。また、さらにエントロピーを下げると思われる価値の高い形態素連鎖語だけを選出し辞書登録する方法も合わせて検討し、最良の方法ではテストセットパープレキシティで約17%の低下という結果が得られた。

論文抄録(英)

内容記述タイプ

Other

内容記述

We investigated the word unit selection methods for LVCSR (Large Vocabulary Continuous Speech Recognition). In general, we use morpheme as the recognition unit for n-gram language model. However, some phrases may be more appropriate for the recognition units. We firstly evaluated the effect of selecting frequently appearing phrases as new recognition units. This method reduced 13% of test-set-perplexity and improved 4% of recognition accuracy. Then, we investigated more efficient selection methods in which only valuable phrases affecting the degradation of entropy are selected as new recognition units. The best method reduced 17 % of test-set-perplexity.

書誌レコードID

収録物識別子タイプ

NCID

収録物識別子

AN10442647

書誌情報

情報処理学会研究報告音声言語情報処理（SLP）

巻 1998, 号 12(1997-SLP-020), p. 33-38, 発行日 1998-02-05

Notice

SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.

出版者

言語

出版者

情報処理学会

戻る

views

See details

	Views

Versions

Ver.1

2025-01-22 04:22:13.958336

Show All versions

Cite as

エクスポート

OAI-PMH

JPCOAR
DublinCore
DDI

Other Formats

JSON
BIBTEX

インデックスリンク

インデックスツリー

アイテム

統計的言語モデルにおける高頻度形態素連鎖の辞書登録に関する一考察

× 小林, 紀彦中野, 裕一郎和田, 陽介小林, 哲則

× Norihiko, Kobayashi Yuichiro, Nakano Yosuke, Wada Tetsunori, Kobayashi

Versions

Share

Cite as

エクスポート

インデックスリンク

インデックスツリー

アイテム

統計的言語モデルにおける高頻度形態素連鎖の辞書登録に関する一考察

× 小林, 紀彦 中野, 裕一郎 和田, 陽介 小林, 哲則

× Norihiko, Kobayashi Yuichiro, Nakano Yosuke, Wada Tetsunori, Kobayashi

Versions

Share

Cite as

エクスポート

× 小林, 紀彦中野, 裕一郎和田, 陽介小林, 哲則