2024-03-29T08:12:34Zhttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_oaipmhoai:ipsj.ixsq.nii.ac.jp:000781612022-10-21T05:24:51Z00581:06276:06563
点予測による自動単語分割A Pointwise Approach to Automatic Word Segmentationjpn一般論文http://id.nii.ac.jp/1001/00078161/Journal Articlehttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_action_common_download&item_id=78161&item_no=1&attribute_id=1&file_no=1Copyright (c) 2011 by the Information Processing Society of Japan京都大学学術情報メディアセンター京都大学情報学研究科日本アイ・ビー・エム株式会社東京基礎研究所森, 信介ニュービッググラム坪井, 祐太本論文では,大量の学習コーパスがある分野で既存手法と同程度かそれ以上の解析精度を保持しつつ,部分的単語分割コーパスなどを利用して安価に分野適応を実現する自動単語分割の設計を提案する.具体的には,推定時の素性として,周囲の単語境界の推定値を参照せずに,周辺の文字列のみを参照する点予測による自動単語分割である.この設計により,単語境界が文の一部にのみ付与された部分的単語分割コーパスを利用することが可能となる.この結果,従来手法に比して格段に高い分野適応性を実現できる.実験では,提案手法と単語n-gramモデルや条件付き確率場による方法による単語分割の精度を比較し,提案手法が計算時間と精度の両方において優位であることが示された.In this paper we propose a design of a word segmenter which allows us a quick domain adaptation keeping a high accuracy in the general domain where a large annotated corpus is available. Our method is based on a pointwise classification which refers only to the neighbouring characters. This design enables us to train our word segmenter by using a partially annotated corpus in which only some parts are annotated. As a result, a high domain adaptability is realized. In the experiments we compared our method and existing methods on word n-gram models or conditional random fields and showed our method is superior to the others in calculation time and accuracy.AN00116647情報処理学会論文誌5210294429522011-10-151882-77642011-10-11