2024-03-29T11:26:38Zhttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_oaipmhoai:ipsj.ixsq.nii.ac.jp:002007522023-04-27T10:00:04Z01164:04179:09731:09984
疑似応答を用いた雑談対話システムの自動評価jpn対話http://id.nii.ac.jp/1001/00200659/Technical Reporthttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_action_common_download&item_id=200752&item_no=1&attribute_id=1&file_no=1Copyright (c) 2019 by the Information Processing Society of Japan東京大学大学院情報理工学系研究科東京大学生産技術研究所東京大学生産技術研究所蔦, 侑磨吉永, 直樹豊田, 正史雑談では発話に対して多様な内容 ・スタイルの応答が可能であるが,雑談対話システムの評価に人の会話データを利用する場合,参照応答としては基本的に特定の個人が行った一応答のみしか利用できないため,応答の多様性を考慮することが困難である.この問題に対し,入力発話-参照応答ペアに類似する発話-応答ペアの応答を疑似応答として大規模対話データなどから収集し,人手で応答としての妥当性を付与して評価に利用する評価手法 ΔBLEU が存在する.しかし,これをオープンドメインな雑談応答生成の評価に足るだけの大規模評価データの構築に用いることはコスト的に現実的でない.そこで本研究では,大規模対話データ中で複数応答を持つ発話から学習された分類器によって,疑似応答に対する妥当性付与と選別を行って ΔBLEU を自動化する ΔBLEU-auto を提案する.実験では大規模な Twitter データを利用して,Transformer に基づく雑談対話応答システムの評価を提案評価手法により評価した.その結果,提案評価手法により人手評価との相関に関して ΔBLEU と同等以上の相関が得られることを確認した.AN10115061研究報告自然言語処理(NL)2019-NL-24313162019-11-272188-87792019-11-20