2024-03-29T07:33:56Zhttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_oaipmhoai:ipsj.ixsq.nii.ac.jp:001954102022-10-21T05:24:51Z00581:09633:09636
統計的機械翻訳のための統語に基づく単純な事前並べ替え手法A Simple Syntax-based Preordering Method for Statistical Machine Translationjpn[特集:若手研究者] 統計的機械翻訳,統語に基づく事前並べ替えhttp://id.nii.ac.jp/1001/00195321/Journal Articlehttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_action_common_download&item_id=195410&item_no=1&attribute_id=1&file_no=1Copyright (c) 2019 by the Information Processing Society of Japan国立情報学研究所/現在,株式会社みらい翻訳国立情報学研究所/現在,東京大学日本電信電話株式会社NTTコミュニケーション科学基礎研究所/現在,奈良先端科学技術大学院大学日本電信電話株式会社NTTコミュニケーション科学基礎研究所/現在,大阪大学日本電信電話株式会社NTTコミュニケーション科学基礎研究所星野, 翔宮尾, 祐介須藤, 克仁林, 克彦永田, 昌明本論文は,英語と日本語のように語順が大きく異なる言語対における統計的機械翻訳の精度向上のため,統語に基づく単純な事前並べ替え手法を提案する.まず,句構造構文解析器を用いて入力文を構文解析および2分木化して,2分木化句構造木を得る.次に,線形サポートベクタマシンを2値分類器として用いて,2分木の各ノードに反転または非反転の並べ替えラベルを付与する.その後,構文木に付与された並べ替えラベルに従い,入力文を並べ替え,統計的機械翻訳システムを用いて翻訳する.類似の手法は過去に幾度となく試行されているが,提案手法は,2値分類器の学習に必要なオラクル並べ替えラベルおよび分類器の素性テンプレートを同時に改良する.大規模特許データを用いる英日・日英翻訳実験において,我々の提案手法は先行研究の事前並べ替え手法の翻訳精度を大幅に改善できることを示す.We propose a simple syntax-based preordering method that improves translation accuracy of distant language pairs, such as English and Japanese, using statistical machine translation. Our method reorders a source-side binary constituent tree by assigning reordering labels, whether the order of child nodes under a binary node should be reversed, using linear support vector machine as a binary classifier. While this idea has been repeatedly implemented in the task of preordering, the way how to obtain oracle reordering labels used for training the classifier remains in a nontrivial open problem. We introduce a procedure to obtain the oracle reordering labels as well as a set of features that improves binary classification accuracy on the task of predicting reordering labels. The tree reordered according to the classified labels is used to yield reordered source sentence, which is fed to a standard statistical machine translation system to generate translation. Experimental results in English-to-Japanese and Japanese-to-English patent translation show that our proposal substantially improves a previously proposed method in terms of translation accuracy.AN00116647情報処理学会論文誌6038909022019-03-151882-77642019-03-14