@techreport{oai:ipsj.ixsq.nii.ac.jp:00176466, author = {石岡, 恒憲 and 亀田, 雅之 and 劉, 東岳 and Tsunenori, Ishioka and Masayuki, Kameda and Dongyue, Louis Liu\n}, issue = {16}, month = {Dec}, note = {センター試験など大学入試試験レベルの短答式記述試験の自動採点および人間による採点を支援する実用可能なシステムを目指して,その試作および実装をした.自然言語におけるテキスト間の同義や含意,推論を公的な試験に採用するほどの精度はこの数年では不可能であるという判断のもとに,採点は設問ごとに作題者が用意した 「採点基準」 に従いシステムがある程度の精度をもった採点計算 (自動採点) を基本とし,その結果を人間が確認 ・ 修正できるものとする.システムは 「 (予め用意された) 模範解答」 と 「 (被験者の実際の) 記述解答」 との (ある程度の) 意味的同一性や含意性を判定するほか,プロンプトと呼ばれる素材文と解答文との意味的近似性なども考慮する.また採点結果は多値分類であることから,自然言語処理でしばしば用いられているサポートベクターマシンではなく,多くの予測変数において有効に機能するランダムフォレストによる機械学習分類を使う.試作システムは Linux 上での Web システムとして動作する.大学入試の模試として実施された社会科の記述式問題 8 題に対して,3 - 6 点の配点の場合にシステムの提示する自動採点と人間の採点を比較すると,高度な意味的判断の要さない大半の設問においては,おおよそ 7 割から 9 割が 1 点差に収まっている., We have developed an automated Japanese short-answer scoring and support machine for new National Center Test written exams. Our approach is based on the fact that recognizing textual entailment and/or synonymy has been almost impossible for scoring systems for several years. The system generates automated scores on the basis of evaluation criteria or rubrics, and human raters revise the scores. The system determines semantic similarity between the model answers and the actual written answers as well as a certain degree of semantic identity and implication. Owing to the need for the scoring results to be classified at multiple levels, we use random forests to effectively utilize many predictors rather than use support vector machines. An experimental prototype operates as a web system on a Linux computer. We compared human scores with the automated scores for the case in which 3-6 allotment points were placed in 8 categories of the social studies test as a trial examination. The differences between the scores were within one point for 70-90 percent of the data when high semantic judgment was not needed.}, title = {人工知能を利用した短答式記述採点支援システムの開発}, year = {2016} }