WEKO3
アイテム
大域的な情報を用いた未知語の品詞推定
https://ipsj.ixsq.nii.ac.jp/records/9637
https://ipsj.ixsq.nii.ac.jp/records/963731b602d5-baa6-480d-88af-a33159ae4176
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2008 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | Journal(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2008-03-15 | |||||||
タイトル | ||||||||
タイトル | 大域的な情報を用いた未知語の品詞推定 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Guessing Parts-of-speech of Unknown Words Using Global Information | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | 論文 | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_6501 | |||||||
資源タイプ | journal article | |||||||
その他タイトル | ||||||||
その他のタイトル | 自然言語 | |||||||
著者所属 | ||||||||
沖電気工業株式会社ユビキタスサービスプラットフォームカンパニー 現在,情報通信研究機構知識創成コミュニケーション研究センター | ||||||||
著者所属 | ||||||||
奈良先端科学技術大学院大学情報科学研究科 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Ubiquitous Service Platform Company, Oki Electric Industry Co., Ltd.,Presently with Knowledge Creating Communication Research Center, National Institute of Information and Communications Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Information Science, Nara Institute of Science and Technology | ||||||||
著者名 |
中川, 哲治
× 中川, 哲治
|
|||||||
著者名(英) |
Tetsuji, Nakagawa
× Tetsuji, Nakagawa
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 本稿では,局所的な情報と大域的な情報を用いて未知語の品詞推定を行う手法を提案する.多くの従来手法において,未知語の品詞は局所的な情報(未知語の前後数単語内,あるいは未知語が含まれる文内の情報等)のみを用いて推定されるが,大域的な情報(同じ語形を持つ未知語が文書中の別の場所でどのような品詞として使われているかという情報)は未知語の品詞推定を行ううえでしばしば有用な手がかりとなる.局所的な情報だけではなく大域的な情報も利用して未知語の品詞を推定するために,文書中に出現する同じ語形を持つすべての未知語の品詞を同時に考慮した確率モデルを提案し,ギブスサンプリングを用いて解析を行う.また提案手法において,品詞情報が付与されていないようなラベルなしデータを利用する方法も検討する.複数のコーパスを使用して実験を行った結果,提案手法を用いることにより,特に中国語と日本語において高い精度で未知語の品詞を推定できることを確認した. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | In this paper, we present a method for guessing POS tags of unknown words using local and global information. Although many existing methods use only local information (i.e. limited window size or intra-sentential features), global information (such as consistency of POS tags of unknown words with the same lexical form) provides valuable clues for predicting POS tags of unknown words. We propose a probabilistic model, in which all the occurrences of the unknown words with the same lexical form in a document are taken into consideration at once, for guessing POS tags of unknown words using global information as well as local information, and predict POS tags of unknown words using Gibbs sampling. We also attempt to utilize unlabeled data which is not attached POS tags. We conduct experiments on multiple corpora, and show that the method improves accuracy of POS guessing of unknown words especially for Chinese and Japanese. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN00116647 | |||||||
書誌情報 |
情報処理学会論文誌 巻 49, 号 3, p. 1437-1450, 発行日 2008-03-15 |
|||||||
ISSN | ||||||||
収録物識別子タイプ | ISSN | |||||||
収録物識別子 | 1882-7764 |