WEKO3
アイテム
中国語機械翻訳における敏感語概念
https://ipsj.ixsq.nii.ac.jp/records/48899
https://ipsj.ixsq.nii.ac.jp/records/488996102e417-efcb-4b06-9769-0f22b4ee9dc1
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 1998 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 1998-01-19 | |||||||
タイトル | ||||||||
タイトル | 中国語機械翻訳における敏感語概念 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | The Concept of Sensitive Word in Chinese Machine Translation | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
広島市立大学情報科学部 | ||||||||
著者所属 | ||||||||
モントリオール大学計算機科学部 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Faculty of Information Sciences, Hiroshima City University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Department of Computer Science and Operation Research, University of Montreal Canada | ||||||||
著者名 |
任福継
× 任福継
|
|||||||
著者名(英) |
Fuji, Ren
× Fuji, Ren
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 機械翻訳を代表とする自然言語処理において、文の解析を高精度、かつ効率良く行うという観点からすれば、できるだけ複合語単位で処理することが望ましい。例えば、中国語"信息高速公路"(ハイウェー)について我々は"信息"と"高速公路"に分割する必要がない。しかし、中国語の複合語は、場合によっては分割しなければ正しく解析できないことが多い。例えば、"他用机器翻★文章"(彼は機械で文献を翻訳する)中の"机器翻★"について、″机器"(機械)と"翻★"(翻訳+する)に分解する必要がある。このような複合語を本論文では敏感語と呼ぶことにする。中国語文の処理において、形態素解析のある候補を用い構文解析や意味解析などを処理する途中で失敗した場合、このような敏感語のみを次の解析候補とすれば、すべての複合語を解析候補とする必要がなくなる。それで、敏感語という概念を導入することにより、高効率的な中国語文処現が期待できる。本論文では、上述の敏感語についての概念を提案し、さらに87599語の中国語辞書を用い実験と検討を行った結果を報告する。 | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | In Machine Translation (MT), using compound words or phrases makes the translation process easier. For example, the phrase "信息高速公" corresponds unambiguously to "information highway". It is not necessary to break it down to "information" and "highway". However, some compound words (phrases) in Chinese are composed of simpler words which can play significantly different roles in sentences when they are broken down. For example, the compound word "机器翻★" (machine translation) may be broken into "机器" (machine) and "翻★" (translate), as in the sentence "他用机器翻★文" (He uses a machine to translate papers). We call such a compound word a Sensitive Word. During Chinese MT processing, if the first segmentation result leads to a failure, the alternative solution with a sensitive word broken down is considered as the preferred one. This allows us to reach at a higher efficiency by avoiding examining impossible segmentation solutions. In this paper, we describe the problems related to sensitive words. A machine readable dictionary has been examined, and more than 800 sensitive words have been found. This shows that sensitive word is a common phenomenon in Chinese that is worth closer examination. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10115061 | |||||||
書誌情報 |
情報処理学会研究報告自然言語処理(NL) 巻 1998, 号 1(1997-NL-123), p. 17-24, 発行日 1998-01-19 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |