| Item type |
SIG Technical Reports(1) |
| 公開日 |
2023-11-25 |
| タイトル |
|
|
タイトル |
Japanese Real Toxicity Prompts: 日本語大規模言語モデルの有害性調査 |
| タイトル |
|
|
言語 |
en |
|
タイトル |
Japanese Real Toxicity Prompts: Investigating the Harmfulness of Japanese Large Language Models |
| 言語 |
|
|
言語 |
jpn |
| キーワード |
|
|
主題Scheme |
Other |
|
主題 |
プロンプト |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
| 著者所属 |
|
|
|
SB Intuitions株式会社 |
| 著者所属 |
|
|
|
SB Intuitions株式会社 |
| 著者所属 |
|
|
|
SB Intuitions株式会社 |
| 著者所属 |
|
|
|
国立国語研究所 |
| 著者所属(英) |
|
|
|
en |
|
|
SB Intuitions Corp. |
| 著者所属(英) |
|
|
|
en |
|
|
SB Intuitions Corp. |
| 著者所属(英) |
|
|
|
en |
|
|
SB Intuitions Corp. |
| 著者所属(英) |
|
|
|
en |
|
|
National Institute for Japanese Language and Linguistics |
| 著者名 |
小林, 滉河
水本, 智也
佐藤, 敏紀
浅原, 正幸
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
近年,大規模言語モデルの進化が社会に多大な影響をもたらしている.一方でこれらのモデルは,差別的あるいは暴力的な有害な文章を生成し,不快感を与えたり,攻撃的な行動を引き起こす可能性がある.そのため言語モデルの有害性を評価し,有害な文章の生成を抑制する研究が進められているものの,多くの研究が英語を対象にしている.本研究では,日本語の有害性評価のためのデータセットを新たに構築し,言語モデルの日本語有害文章生成能力の評価を行った.我々のデータセットを使用して言語モデルを評価した結果,1B から 7B であるオープンソース言語モデルに比べ,GPT-3.5,GPT-4 が生成した文章は有害性が小さいことが明らかになった.また丁寧もしくは攻撃的な文章を生成するようモデルに指示を与えたところ,オープンソース言語モデルが生成する文章の有害性はほとんど変わらなかった.一方で GPT-3.5 は文章の有害性を指示通りに変化させ,GPT-4 は丁寧な文章を書く指示には従い,文章の有害性を下げたが,攻撃的な文章を生成させる指示には従わなかった.注意: 本論文には,有害表現が含まれています. |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10115061 |
| 書誌情報 |
研究報告自然言語処理(NL)
巻 2023-NL-258,
号 29,
p. 1-8,
発行日 2023-11-25
|
| ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8779 |
| Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |