2024-03-29T04:23:34Zhttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_oaipmhoai:ipsj.ixsq.nii.ac.jp:001244842023-11-17T02:17:36Z06504:08043:08048
コーパスからの対訳辞書の半自動生成Semi-Aytomatic Bilingual from Corpusjpnhttp://id.nii.ac.jp/1001/00124664/Conference Paperhttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_action_common_download&item_id=124484&item_no=1&attribute_id=1&file_no=1日本アイ・ビー・エム株式会社東京基礎研究所野美山, 浩自然言語処理システムを実用化するに当たって、最初に問題となるのが辞書の問題である。充分な精度を得るためには、辞書情報を充実させる必要がある。日々使用される語彙は常に変化するため、語彙情報の獲得作業は継続的に行なう必要がある。一方、全く新しい分野に自然言語処理を導入する際には、その分野独自の専門用語辞書を新たに作成する必要が生じる。語彙情報の獲得を工学的に効率化するためには、語の使用頻度に偏りがあることを利用することが考えられる。語の使用頻度に関する経験的知識として、Zipfの経験則が有名である。北村は、Zipfの法則から、辞書の語彙数と未知語率との関係の推定を行なった。これによると、「発見的手続きで作られたn語の辞書は、新しい文の処理において、どの程度の比率で未知語に出会うか」という問題に対し、1/<√<nn>>という評価式が得られている。この評価式からは、(1)辞書の語彙数が少ない範囲では、未知語率が急激に減少している、(2)未知語率の傾きは、だんだん緩やかになるが、決して0にはならない、という2つの顕著な性質を読み取ることができる。これら2つの点を辞書開発作業の観点から考えると、(1)(未知の分野に対し)最初に辞書を開発する作業、(2)継続的に語彙を獲得する作業、の2つの段階に分けることによって作業をより効率的に進めることができる可能性がある。本稿では、高頻度語を抽出するアルゴリズムを用いて、対訳コーパスから半自動的に訳語対を抽出し、対訳辞書開発の初期コストを低減させる手法を提案する。AN00349328全国大会講演論文集第47回人工知能及び認知科学2092101993-09-272015-01-20