@techreport{oai:ipsj.ixsq.nii.ac.jp:00232874,
 author = {佐藤, 魁 and 守屋, 彰二 and 赤間, 怜奈 and 鈴木, 潤},
 issue = {11},
 month = {Mar},
 note = {複数の雑談対話応答生成システムの性能を比較したい場合,その評価には再現性が求められる.現在,参照応答に基づく評価がその需要を満たすものの,一方で人手評価との相関が弱いことが知られている.その原因として,多くの対話では一つの対話履歴に対する応答が無数に存在し,考えられる応答を網羅することが難しい点が指摘されている.しかし,中には例えば Nice to meet you. という発話に対しては一般的に Nice to meet you, too. という応答が期待されるように,期待される応答が限られる発話もある.このことから,コストが高く再現性が保証されない人手評価を,参照応答に基づく評価で十分に代替できる応答が存在すると考えられる.そこで本研究では,期待される応答の限られる発話を手掛かりに,これらの評価基準で評価可能な対話と人手で評価しなければならない対話を分類することを目指す.具体的には,質問の種類や主語など,期待される応答の多様性に関連すると思われる項目について調査した.分析の結果,三人称を主語とした,Yes/No を用いて答えられる質問において,参照応答に基づいた評価と人手評価の相関が他と比べて大きくなることがわかった.この事実から,参照応答に基づく評価で評価可能な対話の分類に,期待される応答の多様性に着目することが有用である可能性が示唆された.},
 title = {応答候補の限られる発話に着目した参照応答ベースの評価基準の分析},
 year = {2024}
}