@techreport{oai:ipsj.ixsq.nii.ac.jp:00231315,
 author = {小林, 正宗 and 三田, 雅人 and 小町, 守},
 issue = {23},
 month = {Nov},
 note = {評価尺度は文法誤り訂正の自動評価における基盤であり，評価尺度の評価（メタ評価）は主に人手評価との相関に基づいて行われる．しかし，文法誤り訂正における従来のメタ評価は，評価尺度とデータセットの評価粒度の不一致によるバイアスや，現在の主流から乖離のある古典的システムに基づいた設定などのいくつかの問題に直面している．これらの問題は，評価尺度に対する誤った解釈をもたらすだけでなく，結果として文法誤り訂正技術の発展を妨げる恐れがある．これらの問題に対処するために，本研究ではより信頼性のある文法誤り訂正のメタ評価のための新たなデータセットSentence-based and Edit-based human Evaluation DAtaset for GEC (SEEDA) を提案する．SEEDA は 2 つの異なる評価粒度（編集ベース，文ベース）に沿った人手評価が付いた訂正文から構成されており，大規模言語モデルを含む 12 の最先端システムと2種類の人手の訂正文を含んでいる．相関分析の結果，文レベルのメタ評価で粒度を揃えることで相関が改善することが分かり，既存の研究では編集ベースの評価尺度が過小評価されてきた可能性を示唆している．さらに，ほとんどの評価尺度の相関は比較対象を古典的なシステムからニューラルシステムに変更すると低下することから，従来の評価尺度は編集の多い流暢な訂正文の評価には不向きであることがわかった．},
 title = {文法誤り訂正におけるメタ評価の再考},
 year = {2023}
}