WEKO3
アイテム
確率的単語分割コーパスからの単語N-gram 確率の計算
https://ipsj.ixsq.nii.ac.jp/records/10071
https://ipsj.ixsq.nii.ac.jp/records/1007121753183-6356-4c6d-9e7a-7ed5957b7d88
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2007 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | Journal(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2007-02-15 | |||||||
タイトル | ||||||||
タイトル | 確率的単語分割コーパスからの単語N-gram 確率の計算 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Word N-gram Probability Calculation from a Stochastically Segmented Corpus | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | 論文 | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_6501 | |||||||
資源タイプ | journal article | |||||||
その他タイトル | ||||||||
その他のタイトル | 音声言語 | |||||||
著者所属 | ||||||||
日本アイ・ビー・エム株式会社東京基礎研究所 | ||||||||
著者所属 | ||||||||
日本アイ・ビー・エム株式会社東京基礎研究所 | ||||||||
著者所属 | ||||||||
日本アイ・ビー・エム株式会社東京基礎研究所 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
IBM Research, Tokyo Research Laboratory, IBM Japan, Ltd. | ||||||||
著者所属(英) | ||||||||
en | ||||||||
IBM Research, Tokyo Research Laboratory, IBM Japan, Ltd. | ||||||||
著者所属(英) | ||||||||
en | ||||||||
IBM Research, Tokyo Research Laboratory, IBM Japan, Ltd. | ||||||||
著者名 |
森, 信介
× 森, 信介
|
|||||||
著者名(英) |
Shinsuke, Mori
× Shinsuke, Mori
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 確率的言語モデルは,音声認識やスペルチェッカなどの言語処理において重要な役割を担っている.最も一般的な確率的言語モデルは単語n-gram モデルであるが,実用的な予測力を実現するには,正しく単語に分割された対象分野のコーパスが大量に必要である.日本語では単語境界は明示されないので,自動単語分割による推定結果を人手で修正する.これには,対象分野の語彙の知識を有する作業者があたる必要があり,多大な時間とコストがかかる.この問題を解決するために,本論文では,文字列である生コーパスに各文字間に単語境界が存在する確率を付与した「確率的単語分割コーパス」という概念を提案し,確率的単語分割コーパスからの単語n-gram 確率の計算について述べる.この方法の有用性を評価するために,確率的言語モデルにおける昨今の課題である分野適応の実験を行い,既存手法に対する優位性を示した. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | Statistical language modeling plays an important role in a state-of-the-art language processing system, such as speech recognizer, spelling checker, etc. The most popular language model (LM) is word n-gram model, which needs sentences annotated with word boundary information. In various Asian languages, however, words are not delimited by whitespace, so we need to annotate sentences with word boundary information to prepare a statistically reliable large corpus. In this paper, we present the concept of a stochastically segmented corpus, which consists of a raw corpus and word boundary probabilities, and a method for calculating word n-gram probabilities from a stochastically segmented corpus. In the experiment, our method is applied to a LM adaptation problem and showed an advantage to an existing method. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN00116647 | |||||||
書誌情報 |
情報処理学会論文誌 巻 48, 号 2, p. 892-899, 発行日 2007-02-15 |
|||||||
ISSN | ||||||||
収録物識別子タイプ | ISSN | |||||||
収録物識別子 | 1882-7764 |