大規模言語モデルにおけるタスク特有の表層表現に起因する脆弱性の調査

鈴木, 刀磨; 坂井, 優介; 上垣外, 英剛; 渡辺, 太郎

WEKO3

lat lon distance

[[sub_check.contents]]

[[sub_radio.contents]]

Field does not validate

[[sub_attr.contents]]　

インデックスツリー

アイテム

大規模言語モデルにおけるタスク特有の表層表現に起因する脆弱性の調査

https://ipsj.ixsq.nii.ac.jp/records/232886

名前 / ファイル	ライセンス	アクション
IPSJ-NL24259023.pdf (4.6 MB) 2026年3月3日からダウンロード可能です。	Copyright (c) 2024 by the Information Processing Society of Japan
非会員：¥660, IPSJ:学会員：¥330, NL:会員：¥0, DLIB:会員：¥0

Item type

SIG Technical Reports(1)

公開日

2024-03-03

タイトル

大規模言語モデルにおけるタスク特有の表層表現に起因する脆弱性の調査

言語

jpn

キーワード

主題Scheme

Other

主題

言語モデル

資源タイプ

資源タイプ識別子

http://purl.org/coar/resource_type/c_18gh

資源タイプ

technical report

著者所属

奈良先端科学技術大学院大学

著者所属

奈良先端科学技術大学院大学

著者所属

奈良先端科学技術大学院大学

著者所属

奈良先端科学技術大学院大学

著者所属(英)

Nara Institute of Science and Technology

著者所属(英)

Nara Institute of Science and Technology

著者所属(英)

Nara Institute of Science and Technology

著者所属(英)

Nara Institute of Science and Technology

著者名

鈴木, 刀磨
坂井, 優介
上垣外, 英剛
渡辺, 太郎

論文抄録

内容記述タイプ

Other

内容記述

大規模言語モデル（LLM）はラベルなしデータを用いた事前学習により高いタスク汎化性能を達成しているが，指示テンプレートを用いて様々なタスクを学習する Instruction-tuning を適用することで，さらにその能力を高めることが可能である．Instruction-tuning では過学習を回避するため，学習に使用する指示テンプレートの多様性を確保しなければならない．この点を踏まえ，FLAN データセットに代表されるような既存の指示データセットではタスクごとに複数のテンプレートを提供している．その一方で，これらのテンプレートには対象とするタスクと密接に関連する単語といったタスク特有の表層表現が含まれている．このような指示テンプレートに含まれる偏りは学習を通じて LLM に反映される可能性があり，その場合に特定の表層表現に対して性能低下を引き起こす原因となり得る．本研究ではこのような指示テンプレートに含まれるタスク特有の表層表現に起因する LLM の脆弱性の調査を行う．我々はこの調査のために，指示文に対してタスクの観点から内容を維持しつつ対象とする単語を挿入する手法を提案した．提案手法を用いて FLAN データセットから作成した指示テンプレートを用いてベンチマークデータセットである MMLU と BBH を対象とした検証の結果，各タスクに強く関連する単語が指示文に含まれることで，文意と無関係に出力結果が大きく変化し得ることを明らかにした．この結果は指示テンプレートに含まれる表層的な表現が LLM の脆弱性を引き起こす可能性を示唆するものであり，Instruction-tuning をより頑健なものとする上で重要な知見である．

書誌レコードID

収録物識別子タイプ

NCID

収録物識別子

AN10115061

書誌情報

研究報告自然言語処理（NL）

巻 2024-NL-259, 号 23, p. 1-17, 発行日 2024-03-03

ISSN

収録物識別子タイプ

ISSN

収録物識別子

2188-8779

Notice

SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.

出版者

言語

出版者

情報処理学会

戻る

views

See details

	Views

Versions

Ver.1

2025-01-19 10:17:18.995367

Show All versions

Cite as

エクスポート

OAI-PMH

JPCOAR
DublinCore
DDI

Other Formats

JSON
BIBTEX

インデックスリンク

インデックスツリー

アイテム

大規模言語モデルにおけるタスク特有の表層表現に起因する脆弱性の調査

× 鈴木, 刀磨

× 坂井, 優介

× 上垣外, 英剛

× 渡辺, 太郎

Versions

Share

Cite as

エクスポート