WEKO3
アイテム
少数の正解ラベル環境下における大規模言語モデルによる疑似ラベルを用いたPrecision-Oriented半教師あり学習
https://ipsj.ixsq.nii.ac.jp/records/239412
https://ipsj.ixsq.nii.ac.jp/records/239412fbba4be7-b8d6-4a03-80b2-6c2c77998e9e
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]()
2026年9月19日からダウンロード可能です。
|
Copyright (c) 2024 by the Information Processing Society of Japan
|
|
非会員:¥660, IPSJ:学会員:¥330, ASD:会員:¥0, DLIB:会員:¥0 |
Item type | SIG Technical Reports(1) | |||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
公開日 | 2024-09-19 | |||||||||||||
タイトル | ||||||||||||||
タイトル | 少数の正解ラベル環境下における大規模言語モデルによる疑似ラベルを用いたPrecision-Oriented半教師あり学習 | |||||||||||||
タイトル | ||||||||||||||
言語 | en | |||||||||||||
タイトル | Precision-Oriented Semi-Supervised Learning Using Pseudo-Labels from Large Language Models in Low Labeled Data Scenarios | |||||||||||||
言語 | ||||||||||||||
言語 | jpn | |||||||||||||
キーワード | ||||||||||||||
主題Scheme | Other | |||||||||||||
主題 | 機械学習・知識蒸留手法 | |||||||||||||
資源タイプ | ||||||||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||||||||
資源タイプ | technical report | |||||||||||||
著者所属 | ||||||||||||||
株式会社KDDI総合研究所 | ||||||||||||||
著者所属 | ||||||||||||||
株式会社KDDI総合研究所 | ||||||||||||||
著者所属 | ||||||||||||||
株式会社KDDI総合研究所 | ||||||||||||||
著者所属 | ||||||||||||||
株式会社KDDI総合研究所 | ||||||||||||||
著者名 |
山崎, 悠大
× 山崎, 悠大
× 武田, 直人
× 西村, 康孝
× 池田, 和史
|
|||||||||||||
論文抄録 | ||||||||||||||
内容記述タイプ | Other | |||||||||||||
内容記述 | 近年,機械学習モデルのモデル精度を左右する高品質な正解ラベルデータの重要性が増している.ラベルなしデータに正確なラベルを付与するアノテーション作業は,知識と時間を要し,コストが高い.そこで,データ拡張による訓練データセットの増量や大規模言語モデル(LLM)を活用した疑似ラベルデータの生成が注目されている.しかし,疑似ラベルデータは信頼度にばらつきがあり,少量の正解ラベルデータを用いたモデルの訓練は過学習を引き起こすことから,疑似ラベルデータと正解ラベルデータを組み合わせたデータ拡張が必要である.さらに,単純に LLM によって生成された大量の疑似ラベルデータと少量の正解ラベルデータを混合して追加の訓練データセットを構築するだけでは,モデル精度が逆に低下してしまう場合がある.したがって,信頼度に基づいて疑似ラベルデータと正解ラベルデータの適切な混合比を自動的に決定するデータ拡張手法が必要となる.そこで本研究では,Precision-Oriented 半教師あり学習手法を提案する.提案手法では,事前に疑似ラベルデータでモデルを訓練し,疑似ラベルデータの各クラスにおける信頼度を適合率(Precision)で評価する.次に,疑似ラベルデータの混合比率を高めたデータ拡張を行い,拡張されたデータのラベルに対応するクラスの信頼度を評価する.信頼度が高ければ疑似ラベルデータが支配的になるようにデータ拡張を行い,信頼度が低い場合は正解ラベルデータの混合比率を高めたデータ拡張を行って追加の訓練データセットを構築し,モデルの訓練を行う.文章分類タスクに関する 2 つのオープンデータセットで実験を行った結果,オープンデータセット TREC において 90 件の正解ラベルデータと 3,000 件の疑似ラベルデータを使用した提案手法は従来のデータ拡張を伴う手法と比べて F1 値を 9% 向上させることが確認された. | |||||||||||||
書誌レコードID | ||||||||||||||
収録物識別子タイプ | NCID | |||||||||||||
収録物識別子 | AA1271737X | |||||||||||||
書誌情報 |
研究報告高齢社会デザイン(ASD) 巻 2024-ASD-30, 号 1, p. 1-8, 発行日 2024-09-19 |
|||||||||||||
ISSN | ||||||||||||||
収録物識別子タイプ | ISSN | |||||||||||||
収録物識別子 | 2189-4450 | |||||||||||||
Notice | ||||||||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||||||||
出版者 | ||||||||||||||
言語 | ja | |||||||||||||
出版者 | 情報処理学会 |