@techreport{oai:ipsj.ixsq.nii.ac.jp:00231321,
 author = {小林, 滉河 and 水本, 智也 and 佐藤, 敏紀 and 浅原, 正幸},
 issue = {29},
 month = {Nov},
 note = {近年,大規模言語モデルの進化が社会に多大な影響をもたらしている.一方でこれらのモデルは,差別的あるいは暴力的な有害な文章を生成し,不快感を与えたり,攻撃的な行動を引き起こす可能性がある.そのため言語モデルの有害性を評価し,有害な文章の生成を抑制する研究が進められているものの,多くの研究が英語を対象にしている.本研究では,日本語の有害性評価のためのデータセットを新たに構築し,言語モデルの日本語有害文章生成能力の評価を行った.我々のデータセットを使用して言語モデルを評価した結果,1B から 7B であるオープンソース言語モデルに比べ,GPT-3.5,GPT-4 が生成した文章は有害性が小さいことが明らかになった.また丁寧もしくは攻撃的な文章を生成するようモデルに指示を与えたところ,オープンソース言語モデルが生成する文章の有害性はほとんど変わらなかった.一方で GPT-3.5 は文章の有害性を指示通りに変化させ,GPT-4 は丁寧な文章を書く指示には従い,文章の有害性を下げたが,攻撃的な文章を生成させる指示には従わなかった.注意: 本論文には,有害表現が含まれています.},
 title = {Japanese Real Toxicity Prompts: 日本語大規模言語モデルの有害性調査},
 year = {2023}
}