@techreport{oai:ipsj.ixsq.nii.ac.jp:02002815, author = {東山,翔平 and 梶原,智之 and 内山,将夫}, issue = {7}, month = {Jun}, note = {自然言語処理・機械翻訳において,ユーザ生成テキストは,逸脱的現象への対処が課題となる難しいドメインの1つである.本研究では,日本語ユーザ生成テキストの機械翻訳タスクと,同タスクにおける逸脱的表記のテキスト正規化に焦点を当て,評価用対訳データセットWRIME-MTの構築を行った.WRIME-MTは,日本語ソーシャルメディア投稿の原文テキストに,英語訳・中国語訳と,逸脱的表記の正規化情報や固有名などの言語情報が付与されたデータセットであり,日本語ユーザ生成テキストの機械翻訳評価において既存データセットを補完する位置づけとなる.本データセットを用いて,多言語および日本語中心の翻訳特化モデル・汎用言語モデルの翻訳精度評価を行い,最先端の自動正規化モデルによる正規化適用について一定の有効性を確認した.}, title = {WRIME-MT:日英・日中ソーシャルメディア対訳データセットの構築}, year = {2025} }