@techreport{oai:ipsj.ixsq.nii.ac.jp:00234930,
 author = {森田, 将司 and 湯浅, 晃},
 issue = {43},
 month = {Jun},
 note = {GPT-4 等の巨大パラメータをもつ大規模言語モデル(LLM)にはエネルギー消費や特定ドメインへの適用の課題があり,そのため小規模パラメータモデルの研究が盛んになされている.大規模モデルと同等の性能を実現するためには学習データの量や質の課題があり,解決策として大規模モデルを用いて学習データを生成するアプローチが効果的であることが知られている.本稿では,自動車オーナーズマニュアルに基づき,コンテキストをもとに回答する closedQA タスク向けの効果的なデータ拡張手法を提案する.提案手法は頻出質問と質問カテゴリのペアをランダムサンプリングしたものとコンテキストとなるマニュアルを GPT-4 にプロンプトとして与えることで学習データを拡張生成する.実験の結果,本手法によって生成された学習データを用いてファインチューニングした小規模 LLM の性能が GPT-4 と同等となることが確認された.また,本手法により従来手法である Few-shot 法を上回る性能が得られることを確認した.提案手法によって,特定ドメインの QA タスクにおける小規模 LLM のさらなる応用が期待される.},
 title = {マニュアルQAタスクに特化したLLMファインチューニングのための頻出質問観点に基づくデータ拡張手法},
 year = {2024}
}