WEKO3
アイテム
PPM*モデルによる日本語単語分割
https://ipsj.ixsq.nii.ac.jp/records/48797
https://ipsj.ixsq.nii.ac.jp/records/4879702630d65-ca05-4cfb-a783-0d430fe2cbce
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 1998 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 1998-11-05 | |||||||
タイトル | ||||||||
タイトル | PPM*モデルによる日本語単語分割 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Japanese Word Segmentation by a PPM* Model | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
徳島大学工学部 | ||||||||
著者所属 | ||||||||
徳島大学工学部 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Faculty of Engineering, Tokushima University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Faculty of Engineering, Tokushima University | ||||||||
著者名 |
小田, 裕樹
× 小田, 裕樹
|
|||||||
著者名(英) |
Hiroki, Oda
× Hiroki, Oda
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 日本語処理において,単語の同定,すなわち文の単語分割は,最も基本的かつ重要な処理である.本稿では,文字モデルとビタビアルゴリズムから成る新しい単語分割手法を提案する.まず,本研究の基本法である文字n-gramモデルに基づく単語分割法を提案する.さらに,単語分割の精度向上のために,文字n-gramモデルに代わり,データ圧縮アルゴリズムPPM^*を用いた言語モデルを適用して単語分割モデルを改良する.PPM^*は,確率・統計的テキスト圧縮技法として最も性能の優れたPPM (Prediction by Partial Matching)の一種である.PPM^*モデルは無限長文脈を取り扱うことのできる可変長n-gramモデルとみなすことができる.ATR対話データベースを用いた評価実験において,文字n-gramモデルを用いた場合との単語分割精度の比較を行い,本手法の有効性を示す. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | Word segmentation, which segments an input sentence into words, is the most fundamental process of Japanese language processing. In this paper, we present a new method for segmenting the input sentence into words, which is suitable for those languages that have no delimiter between words, such as Japanese and Chinese. It consists of a character-based language model and an efficient Viterbi search algorithm. First, we present a word segmentation model based on a character-based n-gram model, which is our basic method. Next, we improve the word segmentation model by using a PPM^* -based language model which is a variant of variable length n-gram models, instead of the character-based n-gram model. The effectiveness has been confirmed by evaluation experiments using the ADD (ATR Dialogue Database) corpus. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10115061 | |||||||
書誌情報 |
情報処理学会研究報告自然言語処理(NL) 巻 1998, 号 99(1998-NL-128), p. 9-16, 発行日 1998-11-05 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |