@techreport{oai:ipsj.ixsq.nii.ac.jp:00232886, author = {鈴木, 刀磨 and 坂井, 優介 and 上垣外, 英剛 and 渡辺, 太郎}, issue = {23}, month = {Mar}, note = {大規模言語モデル(LLM)はラベルなしデータを用いた事前学習により高いタスク汎化性能を達成しているが,指示テンプレートを用いて様々なタスクを学習する Instruction-tuning を適用することで,さらにその能力を高めることが可能である.Instruction-tuning では過学習を回避するため,学習に使用する指示テンプレートの多様性を確保しなければならない.この点を踏まえ,FLAN データセットに代表されるような既存の指示データセットではタスクごとに複数のテンプレートを提供している.その一方で,これらのテンプレートには対象とするタスクと密接に関連する単語といったタスク特有の表層表現が含まれている.このような指示テンプレートに含まれる偏りは学習を通じて LLM に反映される可能性があり,その場合に特定の表層表現に対して性能低下を引き起こす原因となり得る.本研究ではこのような指示テンプレートに含まれるタスク特有の表層表現に起因する LLM の脆弱性の調査を行う.我々はこの調査のために,指示文に対してタスクの観点から内容を維持しつつ対象とする単語を挿入する手法を提案した.提案手法を用いて FLAN データセットから作成した指示テンプレートを用いてベンチマークデータセットである MMLU と BBH を対象とした検証の結果,各タスクに強く関連する単語が指示文に含まれることで,文意と無関係に出力結果が大きく変化し得ることを明らかにした.この結果は指示テンプレートに含まれる表層的な表現が LLM の脆弱性を引き起こす可能性を示唆するものであり,Instruction-tuning をより頑健なものとする上で重要な知見である.}, title = {大規模言語モデルにおけるタスク特有の表層表現に起因する脆弱性の調査}, year = {2024} }