WEKO3
アイテム
大規模オープンソース日英対訳コーパスの構築
https://ipsj.ixsq.nii.ac.jp/records/62301
https://ipsj.ixsq.nii.ac.jp/records/62301dcfd07d6-f522-4670-8947-90bc7d696696
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2009 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2009-05-14 | |||||||
タイトル | ||||||||
タイトル | 大規模オープンソース日英対訳コーパスの構築 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Building A Large Scale Japanese - English Open Source Parallel Corpus | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
長岡技術科学大学電気系 | ||||||||
著者所属 | ||||||||
情報通信研究機構MASTARプロジェクト | ||||||||
著者所属 | ||||||||
情報通信研究機構MASTARプロジェクト | ||||||||
著者所属 | ||||||||
長岡技術科学大学電気系 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Department of Electrical Engineering, Nagaoka University of Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
MASTAR Project, National Institute of Information and Communications Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
MASTAR Project, National Institute of Information and Communications Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Department of Electrical Engineering, Nagaoka University of Technology | ||||||||
著者名 |
石坂, 達也
× 石坂, 達也
|
|||||||
著者名(英) |
Tatsuya, Ishisaka
× Tatsuya, Ishisaka
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | Web上の翻訳文書と原文書を収集し,文の対応付けを行うことで日英対訳コーパスを構築した.対訳コーパスは主にオープンソースソフトウェアのマニュアルの文で構成されており,対訳文の総数は約50万文となった.オープンソースな日英対訳コーパスとしては最大級である.この日英対訳コーパスを学習データに使用し,翻訳実験を行った.その結果,BLEU値は最大で44.36となった.この日英対訳コーパスは公開する予定である. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | We built a Japanese-English parallel corpus which collected open source manual in the Web. The parallel corpus is constructed mainly sentences of open source software manuals. The corpus contains about 500,000 sentence pairs that were aligned automatically. It's one of the largest open source Japanese-English parallel corpus. We conducted machine translation (MT) experiments. Maximum BLEU score was 44.36. We will publish the parallel corpus. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10115061 | |||||||
書誌情報 |
研究報告自然言語処理(NL) 巻 2009-NL-191, 号 17, p. 1-6, 発行日 2009-05-14 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |