2024-03-29T09:55:02Zhttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_oaipmhoai:ipsj.ixsq.nii.ac.jp:000619592023-04-27T10:00:04Z01164:04179:05613:05676
情報量基準に基づいた単語境界推定方式の提案Word Segmentation Estimation using Information Criteriajpnhttp://id.nii.ac.jp/1001/00061959/Technical Reporthttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_action_common_download&item_id=61959&item_no=1&attribute_id=1&file_no=1Copyright (c) 2009 by the Information Processing Society of Japan株式会社 KDDI 研究所株式会社 KDDI 研究所株式会社 KDDI 研究所株式会社 KDDI 研究所柳原, 正松本, 一則池田, 和史滝嶋, 康弘自然言語処理で用いられる形態素解析において、品詞を特定できない文字列を未知語として分類する。しかし、これらの未知語は単語境界が正しく推定されていないことにより、結果的に品詞推定が正確に行えないことが多い。従来の解決方法では、文字間の接合する度合いを計るために、事前にコーパスから生成された n-gram 統計を使用していた。しかし、この手法では情報量の信頼性についての表現できなかったため、n-gram 統計の信頼性が低下してしまうという問題を抱えていた。そこで、本論文では、情報量の信頼性が保たれる情報量基準に基づいた単語境界推定方式を提案する。Morphological analysis used in natural language processing often find words which cannot be catagorized under any morphemes, which are often addressed as "unknown words". However, unknown words often occur due to incorrect estimation of word segmentation. Former methods suggest using a n-gram statistics created from a text corpus, but fail to present reliability within such information. In this paper, we propose a method based on information criteria, which guarantees reliability towards information found within such statistics.AN10115061研究報告自然言語処理(NL)200936(2009-NL-190)43482009-03-182009-08-18