WEKO3
アイテム
GPT-2における体系性の分析
https://ipsj.ixsq.nii.ac.jp/records/2006866
https://ipsj.ixsq.nii.ac.jp/records/2006866daca4141-701d-410e-970d-761370590157
| 名前 / ファイル | ライセンス | アクション |
|---|---|---|
|
2028年1月26日からダウンロード可能です。
|
Copyright (c) 2026 by the Information Processing Society of Japan
|
|
| 非会員:¥660, IPSJ:学会員:¥330, DBS:会員:¥0, IFAT:会員:¥0, DLIB:会員:¥0 | ||
| Item type | Trans(1) | |||||||||
|---|---|---|---|---|---|---|---|---|---|---|
| 公開日 | 2026-01-26 | |||||||||
| タイトル | ||||||||||
| 言語 | ja | |||||||||
| タイトル | GPT-2における体系性の分析 | |||||||||
| タイトル | ||||||||||
| 言語 | en | |||||||||
| タイトル | Analyzing Systematicity in GPT-2 | |||||||||
| 言語 | ||||||||||
| 言語 | jpn | |||||||||
| キーワード | ||||||||||
| 主題Scheme | Other | |||||||||
| 主題 | [研究論文] 言語モデル,汎化能力,体系性,推論,GPT-2 | |||||||||
| 資源タイプ | ||||||||||
| 資源タイプ識別子 | http://purl.org/coar/resource_type/c_6501 | |||||||||
| 資源タイプ | journal article | |||||||||
| 著者所属 | ||||||||||
| 京都産業大学情報理工学部/現在,北京理工大学(珠海)空天信息学域 | ||||||||||
| 著者所属 | ||||||||||
| 京都産業大学情報理工学部 | ||||||||||
| 著者所属(英) | ||||||||||
| en | ||||||||||
| Faculty of Information Science and Engineering, Kyoto Sangyo University / Presently with Aerospace and Informatics Domain, Beijing Institute of Technology | ||||||||||
| 著者所属(英) | ||||||||||
| en | ||||||||||
| Faculty of Information Science and Engineering, Kyoto Sangyo University | ||||||||||
| 著者名 |
井上,綾介
× 井上,綾介
× 宮森,恒
|
|||||||||
| 著者名(英) |
Ryosuke Inoue
× Ryosuke Inoue
× Hisashi Miyamori
|
|||||||||
| 論文抄録 | ||||||||||
| 内容記述タイプ | Other | |||||||||
| 内容記述 | 近年の言語モデルは人間のような流暢な言語生成能力を示している一方で,言語モデルによる体系的な推論に関しては不明な点が多い.体系的な推論とは,既知の知識を組み合わせて未知の問題を解けるという人間の性質である体系性に基づく推論で,言語モデルが学習した知識を汎用的に活用するうえで重要とされる.本研究では,デコーダベースの代表的モデルであり,その構造と規模からニューロンレベルでの内部状態の分析に適したGPT-2を対象に,言語モデルの汎化能力を高める鍵となる体系性を調査する.そのために,特定の概念を担うエキスパートユニットに基づくニューロン操作から言語モデルの体系性を担っていると考えられる箇所を特定する手法を提案し,記号推論と意味解析タスクにおいて共通する特徴を特定する.実験では,GPT-2 small,medium,largeを分析対象とし,その内部状態を明らかにする.本研究により,言語モデルにおいてタスクの種類に依らない体系性を担っている箇所が特定され,分布外汎化を実現するための知見が得られることが期待される. | |||||||||
| 論文抄録(英) | ||||||||||
| 内容記述タイプ | Other | |||||||||
| 内容記述 | Recent advancements have led to the development of large language models (LLMs) capable of generating human-like natural language fluently. However, much remains unknown about their systematic inference. Systematic inference, based on systematicity―a human cognitive ability to solve unseen problems by combining previously known facts and knowledge―is considered crucial for LLMs to generalize their learned knowledge effectively. Therefore, this research investigates systematicity in LLMs, a key factor for enhancing their generalization capabilities, by focusing on GPT-2. As a representative decoder-based model, GPT-2 is well-suited for neuron-level analysis due to its architecture and scale. To this end, we propose a novel method to identify the layers within LLMs considered responsible for systematicity. This method relies on manipulating neurons within ‘expert units’ (neurons assumed to handle specific concepts) and identifying common features across both symbolic reasoning and semantic analysis tasks. Our experiments analyze the internal states of GPT-2 small, medium, and large. This study is expected to contribute to identifying task-agnostic modules in LLMs responsible for systematic generalization across these tasks, thereby providing valuable insights for achieving out-of-distribution generalization. | |||||||||
| 書誌レコードID | ||||||||||
| 収録物識別子タイプ | NCID | |||||||||
| 収録物識別子 | AA11464847 | |||||||||
| 書誌情報 |
情報処理学会論文誌データベース(TOD) 巻 19, 号 1, p. 77-92, 発行日 2026-01-26 |
|||||||||
| ISSN | ||||||||||
| 収録物識別子タイプ | ISSN | |||||||||
| 収録物識別子 | 1882-7799 | |||||||||
| 出版者 | ||||||||||
| 言語 | ja | |||||||||
| 出版者 | 情報処理学会 | |||||||||