WEKO3
アイテム
単語レベルと文字レベルの情報を用いた中国語・日本語単語分割
https://ipsj.ixsq.nii.ac.jp/records/10492
https://ipsj.ixsq.nii.ac.jp/records/10492d4144b0a-34be-4c5e-94ff-28fde91dbc67
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2005 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | Journal(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2005-11-15 | |||||||
タイトル | ||||||||
タイトル | 単語レベルと文字レベルの情報を用いた中国語・日本語単語分割 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Chinese and Japanese Word Segmentation Using Word-level and Character-level Information | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | 論文 | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_6501 | |||||||
資源タイプ | journal article | |||||||
その他タイトル | ||||||||
その他のタイトル | 自然言語 | |||||||
著者所属 | ||||||||
沖電気工業株式会社研究開発本部,奈良先端科学技術大学院大学情報科学研究科 | ||||||||
著者所属 | ||||||||
奈良先端科学技術大学院大学情報科学研究科 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Corporate Research and Development Center, Oki Electric Industry Co., Ltd.,Graduate School of Information Science, Nara Institute of Science and Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Information Science, Nara Institute of Science and Technology | ||||||||
著者名 |
中川, 哲治
× 中川, 哲治
|
|||||||
著者名(英) |
TETSUJI, NAKAGAWA
× TETSUJI, NAKAGAWA
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 本稿では,中国語と日本語の単語分割を行うために,コスト最小法と文字タグ付け法を組み合わせた単語分割手法を提案する.単語分割に関してこれまでに多くの研究が行われているが,単語単位で処理を行うコスト最小法は未知語の扱いが困難であり,文字単位で処理を行う文字タグ付け法は既知語に対する解析精度が低い傾向が見られる.そこで,2つの手法を組み合わせることでこれらの問題を解決することを試みる.提案手法では品詞タグと文字位置タグを同等に扱うことにより,単語単位の解候補と文字単位の解候補を統一的に扱い,既知語と未知語を同時に処理する.複数のコーパスを使用して中国語と日本語の単語分割実験を行った結果,高い解析精度が得られることを確認した. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | In this paper, we propose a hybrid method for Chinese and Japanese word segmentation, which combines a Markov model-based method and a character tagging method. While wordbased Markov models have difficulties in handling unknown words, character-based tagging methods perform worse in handling known words compared with other methods. To compensate the weaknesses of these approaches, we propose a combined method of those two. By handling part-of-speech tags and position-of-character tags equally, word-level hypotheses and character-level hypotheses are treated uniformly, and known words and unknown words are processed simultaneously. Experiments of word segmentation are conducted on multiple Chinese and Japanese corpora, showing that the proposed method achieves higher performance than most of previous methods. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN00116647 | |||||||
書誌情報 |
情報処理学会論文誌 巻 46, 号 11, p. 2714-2727, 発行日 2005-11-15 |
|||||||
ISSN | ||||||||
収録物識別子タイプ | ISSN | |||||||
収録物識別子 | 1882-7764 |