ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 研究報告
  2. 高齢社会デザイン(ASD)
  3. 2024
  4. 2024-ASD-030

少数の正解ラベル環境下における大規模言語モデルによる疑似ラベルを用いたPrecision-Oriented半教師あり学習

https://ipsj.ixsq.nii.ac.jp/records/239412
https://ipsj.ixsq.nii.ac.jp/records/239412
fbba4be7-b8d6-4a03-80b2-6c2c77998e9e
名前 / ファイル ライセンス アクション
IPSJ-ASD24030001.pdf IPSJ-ASD24030001.pdf (1.2 MB)
 2026年9月19日からダウンロード可能です。
Copyright (c) 2024 by the Information Processing Society of Japan
非会員:¥660, IPSJ:学会員:¥330, ASD:会員:¥0, DLIB:会員:¥0
Item type SIG Technical Reports(1)
公開日 2024-09-19
タイトル
タイトル 少数の正解ラベル環境下における大規模言語モデルによる疑似ラベルを用いたPrecision-Oriented半教師あり学習
タイトル
言語 en
タイトル Precision-Oriented Semi-Supervised Learning Using Pseudo-Labels from Large Language Models in Low Labeled Data Scenarios
言語
言語 jpn
キーワード
主題Scheme Other
主題 機械学習・知識蒸留手法
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_18gh
資源タイプ technical report
著者所属
株式会社KDDI総合研究所
著者所属
株式会社KDDI総合研究所
著者所属
株式会社KDDI総合研究所
著者所属
株式会社KDDI総合研究所
著者名 山崎, 悠大

× 山崎, 悠大

山崎, 悠大

Search repository
武田, 直人

× 武田, 直人

武田, 直人

Search repository
西村, 康孝

× 西村, 康孝

西村, 康孝

Search repository
池田, 和史

× 池田, 和史

池田, 和史

Search repository
論文抄録
内容記述タイプ Other
内容記述 近年,機械学習モデルのモデル精度を左右する高品質な正解ラベルデータの重要性が増している.ラベルなしデータに正確なラベルを付与するアノテーション作業は,知識と時間を要し,コストが高い.そこで,データ拡張による訓練データセットの増量や大規模言語モデル(LLM)を活用した疑似ラベルデータの生成が注目されている.しかし,疑似ラベルデータは信頼度にばらつきがあり,少量の正解ラベルデータを用いたモデルの訓練は過学習を引き起こすことから,疑似ラベルデータと正解ラベルデータを組み合わせたデータ拡張が必要である.さらに,単純に LLM によって生成された大量の疑似ラベルデータと少量の正解ラベルデータを混合して追加の訓練データセットを構築するだけでは,モデル精度が逆に低下してしまう場合がある.したがって,信頼度に基づいて疑似ラベルデータと正解ラベルデータの適切な混合比を自動的に決定するデータ拡張手法が必要となる.そこで本研究では,Precision-Oriented 半教師あり学習手法を提案する.提案手法では,事前に疑似ラベルデータでモデルを訓練し,疑似ラベルデータの各クラスにおける信頼度を適合率(Precision)で評価する.次に,疑似ラベルデータの混合比率を高めたデータ拡張を行い,拡張されたデータのラベルに対応するクラスの信頼度を評価する.信頼度が高ければ疑似ラベルデータが支配的になるようにデータ拡張を行い,信頼度が低い場合は正解ラベルデータの混合比率を高めたデータ拡張を行って追加の訓練データセットを構築し,モデルの訓練を行う.文章分類タスクに関する 2 つのオープンデータセットで実験を行った結果,オープンデータセット TREC において 90 件の正解ラベルデータと 3,000 件の疑似ラベルデータを使用した提案手法は従来のデータ拡張を伴う手法と比べて F1 値を 9% 向上させることが確認された.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AA1271737X
書誌情報 研究報告高齢社会デザイン(ASD)

巻 2024-ASD-30, 号 1, p. 1-8, 発行日 2024-09-19
ISSN
収録物識別子タイプ ISSN
収録物識別子 2189-4450
Notice
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-19 08:17:21.227336
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3