WEKO3
アイテム
社会的属性ごとに異なる内部表現を考慮した活性化ステアリングによるLLMの社会的バイアス緩和
https://ipsj.ixsq.nii.ac.jp/records/2007757
https://ipsj.ixsq.nii.ac.jp/records/20077577916e3b4-6db9-4816-8f09-703b16beb1c4
| 名前 / ファイル | ライセンス | アクション |
|---|---|---|
|
2028年2月28日からダウンロード可能です。
|
Copyright (c) 2026 by the Information Processing Society of Japan
|
|
| 非会員:¥660, IPSJ:学会員:¥330, NL:会員:¥0, DLIB:会員:¥0 | ||
| Item type | SIG Technical Reports(1) | |||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 公開日 | 2026-02-28 | |||||||||||
| タイトル | ||||||||||||
| 言語 | ja | |||||||||||
| タイトル | 社会的属性ごとに異なる内部表現を考慮した活性化ステアリングによるLLMの社会的バイアス緩和 | |||||||||||
| 言語 | ||||||||||||
| 言語 | jpn | |||||||||||
| キーワード | ||||||||||||
| 主題Scheme | Other | |||||||||||
| 主題 | LLMの信頼性 | |||||||||||
| 資源タイプ | ||||||||||||
| 資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||||||
| 資源タイプ | technical report | |||||||||||
| 著者所属 | ||||||||||||
| 同志社大学文化情報学部 | ||||||||||||
| 著者所属 | ||||||||||||
| 同志社大学大学院文化情報学研究科 | ||||||||||||
| 著者所属 | ||||||||||||
| 同志社大学文化情報学部 | ||||||||||||
| 著者名 |
前川,知歩
× 前川,知歩
× 木村,優介
× 波多野,賢治
|
|||||||||||
| 論文抄録 | ||||||||||||
| 内容記述タイプ | Other | |||||||||||
| 内容記述 | 大規模言語モデルは学習データに含まれる偏りを反映し,人種や性別などの社会的属性に関して不当な差別や偏見といった社会的バイアスを含む挙動を示すことが知られている.近年,推論時にモデルの内部表現へ介入することで挙動を制御する活性化ステアリングに基づくバイアス緩和手法が提案されているが,多くの既存手法は社会的バイアスをモデル全体で共通の単一現象として扱っている.しかし,社会的バイアスは属性ごとに異なる文脈や内部表現に基づいて発現すると考えられ,単一の介入方向では不要な副作用を引き起こす可能性がある.そこで本研究では,社会的属性ごとにバイアスに関与する内部表現の部分空間が異なるという仮定のもと,内部表現を表現分解手法により高解像度な特徴に分解し,各属性に特化したステアリングベクトルを学習する手法を提案する. | |||||||||||
| 書誌レコードID | ||||||||||||
| 収録物識別子タイプ | NCID | |||||||||||
| 収録物識別子 | AN10115061 | |||||||||||
| 書誌情報 |
研究報告自然言語処理(NL) 巻 2026-NL-267, 号 31, p. 1-9, 発行日 2026-02-28 |
|||||||||||
| ISSN | ||||||||||||
| 収録物識別子タイプ | ISSN | |||||||||||
| 収録物識別子 | 2188-8779 | |||||||||||
| Notice | ||||||||||||
| SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||||||
| 出版者 | ||||||||||||
| 言語 | ja | |||||||||||
| 出版者 | 情報処理学会 | |||||||||||