@techreport{oai:ipsj.ixsq.nii.ac.jp:00239412, author = {山崎, 悠大 and 武田, 直人 and 西村, 康孝 and 池田, 和史}, issue = {1}, month = {Sep}, note = {近年,機械学習モデルのモデル精度を左右する高品質な正解ラベルデータの重要性が増している.ラベルなしデータに正確なラベルを付与するアノテーション作業は,知識と時間を要し,コストが高い.そこで,データ拡張による訓練データセットの増量や大規模言語モデル(LLM)を活用した疑似ラベルデータの生成が注目されている.しかし,疑似ラベルデータは信頼度にばらつきがあり,少量の正解ラベルデータを用いたモデルの訓練は過学習を引き起こすことから,疑似ラベルデータと正解ラベルデータを組み合わせたデータ拡張が必要である.さらに,単純に LLM によって生成された大量の疑似ラベルデータと少量の正解ラベルデータを混合して追加の訓練データセットを構築するだけでは,モデル精度が逆に低下してしまう場合がある.したがって,信頼度に基づいて疑似ラベルデータと正解ラベルデータの適切な混合比を自動的に決定するデータ拡張手法が必要となる.そこで本研究では,Precision-Oriented 半教師あり学習手法を提案する.提案手法では,事前に疑似ラベルデータでモデルを訓練し,疑似ラベルデータの各クラスにおける信頼度を適合率(Precision)で評価する.次に,疑似ラベルデータの混合比率を高めたデータ拡張を行い,拡張されたデータのラベルに対応するクラスの信頼度を評価する.信頼度が高ければ疑似ラベルデータが支配的になるようにデータ拡張を行い,信頼度が低い場合は正解ラベルデータの混合比率を高めたデータ拡張を行って追加の訓練データセットを構築し,モデルの訓練を行う.文章分類タスクに関する 2 つのオープンデータセットで実験を行った結果,オープンデータセット TREC において 90 件の正解ラベルデータと 3,000 件の疑似ラベルデータを使用した提案手法は従来のデータ拡張を伴う手法と比べて F1 値を 9% 向上させることが確認された.}, title = {少数の正解ラベル環境下における大規模言語モデルによる疑似ラベルを用いたPrecision-Oriented半教師あり学習}, year = {2024} }