WEKO3
アイテム
機械学習を用いたタイ語の品詞タグづけ
https://ipsj.ixsq.nii.ac.jp/records/48475
https://ipsj.ixsq.nii.ac.jp/records/48475e6ac742a-6247-4ede-8a65-060faa488ae0
| 名前 / ファイル | ライセンス | アクション |
|---|---|---|
|
|
Copyright (c) 2001 by the Information Processing Society of Japan
|
|
| オープンアクセス | ||
| Item type | SIG Technical Reports(1) | |||||||
|---|---|---|---|---|---|---|---|---|
| 公開日 | 2001-09-10 | |||||||
| タイトル | ||||||||
| タイトル | 機械学習を用いたタイ語の品詞タグづけ | |||||||
| タイトル | ||||||||
| 言語 | en | |||||||
| タイトル | POS Tagging in the Thai Language Using Machine - Learning Methods | |||||||
| 言語 | ||||||||
| 言語 | jpn | |||||||
| 資源タイプ | ||||||||
| 資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
| 資源タイプ | technical report | |||||||
| 著者所属 | ||||||||
| 独立行政法人通信総合研究所けいはんな情報通信融合研究センター | ||||||||
| 著者所属 | ||||||||
| 独立行政法人通信総合研究所けいはんな情報通信融合研究センター | ||||||||
| 著者所属 | ||||||||
| 独立行政法人通信総合研究所けいはんな情報通信融合研究センター | ||||||||
| 著者所属(英) | ||||||||
| en | ||||||||
| Communications Research Laboratory | ||||||||
| 著者所属(英) | ||||||||
| en | ||||||||
| Communications Research Laboratory | ||||||||
| 著者所属(英) | ||||||||
| en | ||||||||
| Communications Research Laboratory | ||||||||
| 著者名 |
村田, 真樹
馬青
井佐原, 均
× 村田, 真樹 馬青 井佐原, 均
|
|||||||
| 著者名(英) |
Masaki, Murata
Ma, Qing
Hitoshi, Isahara
× Masaki, Murata Ma, Qing Hitoshi, Isahara
|
|||||||
| 論文抄録 | ||||||||
| 内容記述タイプ | Other | |||||||
| 内容記述 | われわれはこれまで,できるだけ少量の訓練データで実用的な品詞タグづけシステムを構築する目的で伸縮性入力ニューロタガー,ニューラルネットワークとBrillの誤り駆動学習を融合したハイブリッド型ニューロタガーを提案してきた。これらのタガーでは多品詞語を含む小規模タイ語コーパスを学習データとして,それぞれ94.4%,95.5%という高い精度(多品詞語のみを測定対象)で品詞のタグづけをした。本研究では,新たに決定リスト,最大エントロピー法,サポートベクトルマシン法の三つの機械学習法を用いるタイ語のタグづけの手法を提案し,それらを用いて品詞タグづけを行った。結果はサポートベクトルマシンがもっともよい精度(96.1%)を出し,さらにタイ語の品詞タグづけの精度向上を実現することになった。本稿では,手法間の比較や精度向上の原因についての考察も行なう。 | |||||||
| 論文抄録(英) | ||||||||
| 内容記述タイプ | Other | |||||||
| 内容記述 | The elastic-input neuro tagger and the hybrid neuro tagger combined the neural network and Brill's error-driven learning have already been proposed for the purpose of constructing a practical tagger that uses as little training data as possible. When a small Thai corpus is used for training, these taggers have tagging accuracies of 94.4% and 95.5% (accounting only for the ambiguous words in part of speech), respectively. In this study, we developed new tagging methods using the three machine learning methods: decision-list, maximum entropy, and support vector machine methods. We then performed tagging experiments using these methods. Our results showed that the support vector machine method has the best precision (96.1%), and that it is capable of improving the accuracy of tagging in the Thai language. Finally, we theoretically examined the above-mentioned methods and discussed how improvements have been made. | |||||||
| 書誌レコードID | ||||||||
| 収録物識別子タイプ | NCID | |||||||
| 収録物識別子 | AN10115061 | |||||||
| 書誌情報 |
情報処理学会研究報告自然言語処理(NL) 巻 2001, 号 86(2001-NL-145), p. 45-50, 発行日 2001-09-10 |
|||||||
| Notice | ||||||||
| SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
| 出版者 | ||||||||
| 言語 | ja | |||||||
| 出版者 | 情報処理学会 | |||||||