@inproceedings{oai:ipsj.ixsq.nii.ac.jp:00239256,
 author = {切貫, 弘之 and 丹野, 治門},
 book = {ソフトウェアエンジニアリングシンポジウム2024論文集},
 month = {Sep},
 note = {近年，ChatGPT を始めとする大規模言語モデル（LLM）が自然言語処理やソフトウェア開発といった様々な分野で適用され，大きな成果を挙げている．LLM のソフトウェアテストへの利用は有望であるものの，これまでの取り組みは主にユニットテストに限られており，その他のテスト手法についてはまだ十分に探究されていない．本論文では，特にブラックボックステストに焦点を当て，ChatGPT によって作成されたテストケースと人間の開発者によって作成されたテストケースを比較評価した．ChatGPT（GPT-4）と 4 人の開発者がそれぞれ，著者らが作成した 3 つのアプリケーション仕様に基づいてブラックボックステストケースを作成した．比較の狙いは，LLM と人間が作成するテストケースの特徴を分析し，LLM のブラックボックステストへの適用可能性を評価することである．評価の結果，ChatGPT はテスト観点のカバレッジに関して，人間の開発者によって作成されたテストケースと同等か，わずかに上回ることが分かった．さらに，ChatGPT と人間では作成するテストケースの傾向に違いがあり，ChatGPT と人間が協働することは人間同士のペアが協働するよりも効果的である可能性が示された．一方で，評価の中で判明した，ChatGPT が生成するテストケースを使用する際に注意すべき問題についても議論する．},
 pages = {165--173},
 publisher = {情報処理学会},
 title = {ChatGPTのブラックボックステストへの適用および人間との協働可能性についての調査},
 volume = {2024},
 year = {2024}
}