WEKO3
アイテム
文字クラスモデルに基づく日本語単語分割
https://ipsj.ixsq.nii.ac.jp/records/48759
https://ipsj.ixsq.nii.ac.jp/records/487596c60e178-427f-45b4-a184-0a508a474f85
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 1999 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 1999-03-04 | |||||||
タイトル | ||||||||
タイトル | 文字クラスモデルに基づく日本語単語分割 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Japanese Word Segmentation Based on a Character Class Model | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
徳島大学工学部 | ||||||||
著者所属 | ||||||||
日本IBM東京基礎研究所 | ||||||||
著者所属 | ||||||||
徳島大学工学部 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Faculty of Engineering, Tokushima University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Tokyo Research Laboratory, IBM Japan | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Faculty of Engineering, Tokushima University | ||||||||
著者名 |
小田, 裕樹
× 小田, 裕樹
|
|||||||
著者名(英) |
Hiroki, Oda
× Hiroki, Oda
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 日本語処理において,単語の同定,すなわち文の単語分割は,最も基本的かつ重要な処理である.本稿では,文字クラスモデルを言語モデルとして用いる新しい単語分割手法を提案する.まず,本研究の基本である文字モデルに基づく単語分割法を示す.その上で,文字モデルに代わり,日本語文字のクラス分類により得られた文字クラスモデルに基づく単語分割モデルを提案する.文字クラスモデルでは,推定すべきパラメータ数が文字モデルより少ないという大きな利点があり,文字モデルより頑健な推定を可能とする.ATR対話データベースを用いた評価実験において,文字モデルを用いた場合と文字クラスモデルを用いた場合の単語分割精度の比較を行い,文字クラスモデルに基づく本手法の有効性を示す. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | Word segmentation, which segments an input sentence into words, is the most fundamental process of Japanese language processing. In this paper, we present a new method for segmenting the input sentence into words, which is suitable for those languages that have no delimiter between words, such as Japanese and Chinese. It is based on a character class model. First, we explain a word segmentation model using a character-based model. Next, we present a word segmentation model based on a character class model instead of the character-based model. The effectiveness has been confirmed by evaluation experiments using the ADD (ATR Dialogue Database) corpus. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10115061 | |||||||
書誌情報 |
情報処理学会研究報告自然言語処理(NL) 巻 1999, 号 22(1998-NL-130), p. 1-8, 発行日 1999-03-04 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |