Item type |
SIG Technical Reports(1) |
公開日 |
2024-08-27 |
タイトル |
|
|
タイトル |
LLMに日本語テキストを学習させる意義 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Advantages of Training LLMs on Japanese Text |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
LLM応用・言語解析 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
東京工業大学 |
著者所属 |
|
|
|
東京工業大学/産業技術総合研究所 |
著者所属 |
|
|
|
東京工業大学 |
著者所属 |
|
|
|
東京工業大学 |
著者所属 |
|
|
|
東京工業大学 |
著者所属 |
|
|
|
東京工業大学 |
著者所属 |
|
|
|
東京工業大学 |
著者所属 |
|
|
|
東京工業大学 |
著者所属 |
|
|
|
東京工業大学 |
著者所属 |
|
|
|
東京工業大学 |
著者所属 |
|
|
|
東京工業大学 |
著者所属 |
|
|
|
産業技術総合研究所 |
著者所属 |
|
|
|
東京工業大学 |
著者所属 |
|
|
|
東京工業大学 |
著者名 |
齋藤, 幸史郎
水木, 栄
大井, 聖也
中村, 泰士
塩谷, 泰平
前田, 航希
Youmi, Ma
服部, 翔
藤井, 一喜
岡本, 拓己
石田, 茂樹
高村, 大也
横田, 理央
岡崎, 直観
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
日本語のテキストを学習することの意義,そして日本語に強い大規模言語モデル(LLM)の特徴は何であろうか.本研究では,35 種類の日本語・英語の LLM を日英 19 件のタスクで統一的に評価することで,言語とタスク性能の関連性を定量的に分析した.その結果,次の三つの知見を得た.まず,タスク性能の相関行列を分析し,一般教養やコード生成,算術推論は英語と日本語の性能がほぼ比例することを見出した(4.2 節で詳述する).次に,相関行列の主成分分析により,有意義な主成分を三つ確認した.第1主成分は日英問わず大半のタスクに寄与する基礎能力的な因子,第 2 主成分は日本語質問応答と英日翻訳に寄与する因子,第 3 主成分は算術推論とコード生成に寄与する因子である(4.3 節で詳述する).最後に,主成分得点と計算予算の対数との関係を分析し,第 1 主成分は英語向け計算予算,第 2 主成分は日本語向け計算予算に比例することを見出した(ここで,計算予算=パラメータ数×学習トークン数であり,4.4 節で詳述する).以上の分析から,LLM に日本語テキストを学習させることは,主に日本に関する知識の獲得および英日翻訳の向上という効果をもたらすことが示唆された. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10115061 |
書誌情報 |
研究報告自然言語処理(NL)
巻 2024-NL-261,
号 12,
p. 1-15,
発行日 2024-08-27
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8779 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |