WEKO3
アイテム
情報量基準に基づいた単語境界推定方式の提案
https://ipsj.ixsq.nii.ac.jp/records/61959
https://ipsj.ixsq.nii.ac.jp/records/61959f7ae6e75-6428-4b2e-af2b-81a5ff8022f9
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2009 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2009-03-18 | |||||||
タイトル | ||||||||
タイトル | 情報量基準に基づいた単語境界推定方式の提案 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Word Segmentation Estimation using Information Criteria | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
株式会社 KDDI 研究所 | ||||||||
著者所属 | ||||||||
株式会社 KDDI 研究所 | ||||||||
著者所属 | ||||||||
株式会社 KDDI 研究所 | ||||||||
著者所属 | ||||||||
株式会社 KDDI 研究所 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
KDDI R&D Incorporated | ||||||||
著者所属(英) | ||||||||
en | ||||||||
KDDI R&D Incorporated | ||||||||
著者所属(英) | ||||||||
en | ||||||||
KDDI R&D Incorporated | ||||||||
著者所属(英) | ||||||||
en | ||||||||
KDDI R&D Incorporated | ||||||||
著者名 |
柳原, 正
× 柳原, 正
|
|||||||
著者名(英) |
Tadashi, Yanagihara
× Tadashi, Yanagihara
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 自然言語処理で用いられる形態素解析において、品詞を特定できない文字列を未知語として分類する。しかし、これらの未知語は単語境界が正しく推定されていないことにより、結果的に品詞推定が正確に行えないことが多い。従来の解決方法では、文字間の接合する度合いを計るために、事前にコーパスから生成された n-gram 統計を使用していた。しかし、この手法では情報量の信頼性についての表現できなかったため、n-gram 統計の信頼性が低下してしまうという問題を抱えていた。そこで、本論文では、情報量の信頼性が保たれる情報量基準に基づいた単語境界推定方式を提案する。 | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | Morphological analysis used in natural language processing often find words which cannot be catagorized under any morphemes, which are often addressed as "unknown words". However, unknown words often occur due to incorrect estimation of word segmentation. Former methods suggest using a n-gram statistics created from a text corpus, but fail to present reliability within such information. In this paper, we propose a method based on information criteria, which guarantees reliability towards information found within such statistics. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10115061 | |||||||
書誌情報 |
研究報告自然言語処理(NL) 巻 2009, 号 36(2009-NL-190), p. 43-48, 発行日 2009-03-18 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |