WEKO3
アイテム
非線形な表現構造に着目した日英文型パターン化
https://ipsj.ixsq.nii.ac.jp/records/48186
https://ipsj.ixsq.nii.ac.jp/records/48186ba0489fc-195b-4275-a051-5a4b7c93014c
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2004 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2004-03-04 | |||||||
タイトル | ||||||||
タイトル | 非線形な表現構造に着目した日英文型パターン化 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Japanese to English Sentence Pattern Generations for Semantically Non - Linear Complex Sentences | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
鳥取大学工学部 | ||||||||
著者所属 | ||||||||
NTTアドバンステクノロジ株式会社 | ||||||||
著者所属 | ||||||||
鳥取大学工学部 | ||||||||
著者所属 | ||||||||
鳥取大学工学部 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Faculty of Engineering, Tottori University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
NTT Advanced Technology Corp., | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Faculty of Engineering, Tottori University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Faculty of Engineering, Tottori University | ||||||||
著者名 |
池原, 悟
× 池原, 悟
|
|||||||
著者名(英) |
Satoru, Ikehara
× Satoru, Ikehara
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 要素合成法を基本とした従来の機械翻訳方式の限界を突破する方法として,非線形な言語表現の構造を意味のまとまる単位にパターン化した文型パターン翻訳方式が期待される.本論文では,重文と複文を対象に,この方式の実現に必要な文型パターン辞書を試作した.具体的には,100万件の日英対訳コーパスから2つ又は3つの述部を持つ重文と複文合計15万件を抽出し,単語レベル(12.8万件),句レベル(10.5万件),節レベル(1.3万件)の3種類のグループからなる文型パターン辞書(合計24.6万件,異なり22.1万件収録)を作成した.各文型パターンは,いずれも形態素解析によって得られる文法情報を用いて記述することとし,対訳標本文に含まれる線形な表現要素を半自動的に変数化,関数化することなどにより作成したものである.従来,大規模な文型パターン辞書の開発は,文型パターン間の意味的排他性実現の困難性と膨大な開発コストが問題となるため,適用対象を限定するなど小規模な実現例しか見られなかった.しかし,今回の試作によって,ほぼすべての標本文(99%)が多くの線形要素(平均4?5カ所)を持つことが分かった.また,それらの要素を半自動的に関数化,変数化を行うことにより,文型パターンの開発コストは人手に頼る方法の約1/10に削減できた.これにより,実験的検討に必要な規模の文型パターン辞書を構築することができた. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | In order to breakthrough the limitation of the conventional method based on Compositional Semantics, it is expected to realize a new translation method based on Sentence Patterns in which non-linear structures of linguistic expressions are represented as semantic units. This paper proposes the way to judge the linearity or non-linearity of linguistic expressions based on their definitions and how to generate sentence patterns from huge bilingual corpora. According to this method, three kinds of sentence patterns such as "word level", "phrase level" and "clause level" are generated in this order from Japanese to English corpus. In the experiments, 150,000 sentence pairs for complex and compound sentences are extracted from one million sentence pair corpora, and 128,000 patterns, 105,000 patterns and 13,000 patterns for each of three revels were generated from these sentence pairs. Due to the clarifications of decision process, the generation processes of the sentence patterns were mostly automated by using the results of morphological analysis and these 246,000 sentence patterns have been obtained in a year. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10115061 | |||||||
書誌情報 |
情報処理学会研究報告自然言語処理(NL) 巻 2004, 号 23(2003-NL-160), p. 49-56, 発行日 2004-03-04 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |