WEKO3
アイテム
タグなしコーパスによる形態素解析と仮名漢字変換の精度向上
https://ipsj.ixsq.nii.ac.jp/records/48494
https://ipsj.ixsq.nii.ac.jp/records/48494057ada01-18e5-42d3-92fb-dc0bfa711ef8
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2001 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2001-07-16 | |||||||
タイトル | ||||||||
タイトル | タグなしコーパスによる形態素解析と仮名漢字変換の精度向上 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Improvement of POS tagger and Kana Kanji Converter by an Untagged Corpus | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
日本IBM東京基礎研究所 | ||||||||
著者所属 | ||||||||
日本IBM東京基礎研究所 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Tokyo Research Laboratory, IBM Japan | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Tokyo Research Laboratory, IBM Japan | ||||||||
著者名 |
森, 信介
× 森, 信介
|
|||||||
著者名(英) |
Shinsuke, Mori
× Shinsuke, Mori
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 確率的言語モデルを基礎とする自然言語処理において、タグが付与された学習コーパスは重要であり、これを増量することが精度向上につながることがわかっている。しかしながら有意な精度向上のためには、学習コーパスを指数関数的以上に増加させる必要があり、このために必要なコーパスにタグを付与するコストは無視できない程度になっている。このような背景のもと、本論文では、タグなしコーパスの利用による形態素解析と仮名漢字変換の精度向上について述べる。実験では、タグなしコーパスの利用により、確率的言語モデルの予測力やそれに基づく仮名漢字変換の精度は有意に向上し、タグなしコーパスは0.87倍の量のタグつきコーパスに匹敵したが、形態素解析の精度向上は微小であった。 | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | A tagged corpus plays an important role in natural language processing based on a stochastic language model and increasing the corpus size improves the accuracy. It is, however, necessary for a meaningful improvement to incerase a corpus size more than expornentially and an annotation cost needed for it is not negligiable. In this paper, we discuss the usage of an untagged corpus. In the expreriments, using an untagged corpus improved the predictive power of a stochastic language model and the accuracy of a kana-kanji converter based on it. But for a tagger the improvement was slight. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10115061 | |||||||
書誌情報 |
情報処理学会研究報告自然言語処理(NL) 巻 2001, 号 69(2001-NL-144), p. 47-54, 発行日 2001-07-16 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |