WEKO3
アイテム
翻訳テンプレートの自動抽出 : 緩やかに対応付けされたデータからの対訳抽出
https://ipsj.ixsq.nii.ac.jp/records/130308
https://ipsj.ixsq.nii.ac.jp/records/13030803f63997-8649-429c-bacd-dd7fe95019ab
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
|
Item type | National Convention(1) | |||||
---|---|---|---|---|---|---|
公開日 | 1996-09-04 | |||||
タイトル | ||||||
タイトル | 翻訳テンプレートの自動抽出 : 緩やかに対応付けされたデータからの対訳抽出 | |||||
タイトル | ||||||
言語 | en | |||||
タイトル | Automatic Extraction of Collocations for Machine Translation | |||||
言語 | ||||||
言語 | jpn | |||||
資源タイプ | ||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_5794 | |||||
資源タイプ | conference paper | |||||
著者所属 | ||||||
NTTコミュニケーション科学研究所 | ||||||
著者所属 | ||||||
NTTコミュニケーション科学研究所 | ||||||
著者所属 | ||||||
鳥取大学 | ||||||
著者所属(英) | ||||||
en | ||||||
NTT Communication Science Laboratories | ||||||
著者所属(英) | ||||||
en | ||||||
NTT Communication Science Laboratories | ||||||
著者所属(英) | ||||||
en | ||||||
Tottori University | ||||||
論文抄録 | ||||||
内容記述タイプ | Other | |||||
内容記述 | 機械翻訳において、専門分野に応じた高品質な訳文を得るためには、単語単位に翻訳を行うのではなく、その構文全体をとらえて、分野特有の言い回しや、表現方法に対応した翻訳を行うことが必要となる。このような翻訳を行うためには対象文を分析し、分野特有の表現をルールやデータとして蓄積していく作業が必要となる。品質を向上させるためには大量のデータに対する分析が必要となり、ルールを作成していく上での一つの障害となっている。定型パターンをコーパスから機械的に抽出する手法が各所で研究されている[1][2]が、これらの方法は対象となるテキストが単語単位に分割されていることが前提とされており、日本語のような言語では事前に形態素解析などにより分割をしておく必要があった。これに対して長尾らによって提案された方法[3]は、テキストに対してn-gram統計処理を行ない、テキストデータ内の文字列をその文字長の順および出現頻度の順に抽出するもので事前の処理を必要としないという特徴がある。この手法においては、断片的な文字列がかなりの割合で混在すると言う問題があるが、これを解決する手法として相互に重複する文字列を除去する方法、エントロピー基準を用いる方法[5]などが提案されている。本稿では、記事ごとに対応付けされた日英の新聞記事コーパスにn-gram統計処理を適用することによって、定型的な表現を抽出し、ルールを作成するための基データを自動的に収集する手法を提案する。 | |||||
書誌レコードID | ||||||
収録物識別子タイプ | NCID | |||||
収録物識別子 | AN00349328 | |||||
書誌情報 |
全国大会講演論文集 巻 第53回, 号 人工知能と認知科学, p. 61-62, 発行日 1996-09-04 |
|||||
出版者 | ||||||
言語 | ja | |||||
出版者 | 情報処理学会 |