Item type |
SIG Technical Reports(1) |
公開日 |
2023-08-25 |
タイトル |
|
|
タイトル |
語彙内トークンを媒介とした大規模言語モデルへのソフトプロンプトの転移 |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
深層学習 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
東京都立大学大学院 |
著者所属 |
|
|
|
東京都立大学大学院 |
著者所属 |
|
|
|
東京都立大学大学院 |
著者所属 |
|
|
|
一橋大学大学院 |
著者所属 |
|
|
|
一橋大学大学院 |
著者名 |
中島, 京太郎
金, 輝燦
平澤, 寅庄
岡, 照晃
小町, 守
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
プロンプトチューニングとは,下流タスクの教師信号を基に,埋め込みで表されたプロンプト,ソフトプロンプトを学習する手法である.ソフトプロンプトは入力文とともにモデルに与えられ,学習された下流タスクの情報を入力文に追加する効果がある.プロンプトチューニングは少量のパラメータ更新のみで微調整に匹敵する性能を達成できる.しかし大規模言語モデルのプロンプトチューニングは大量の計算コスト・時間がかかる.本研究では小規模な言語モデルで学習したソフトプロンプトを言語モデルの語彙内トークンに置換し,パラメータを固定したまま大規模な言語モデルに転移させる手法を提案する.提案手法の性能を分類タスクで比較したところ,人手で作成したプロンプトより高い性能を得た.またソフトプロンプトとの比較では,性能は提案手法が下回るものの,使用 GPU メモリ量や収束までの時間を削減することができた. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10115061 |
書誌情報 |
研究報告自然言語処理(NL)
巻 2023-NL-257,
号 1,
p. 1-8,
発行日 2023-08-25
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8779 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |