ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 研究報告
  2. 自然言語処理(NL)
  3. 2024
  4. 2024-NL-261

LLMに日本語テキストを学習させる意義

https://ipsj.ixsq.nii.ac.jp/records/238505
https://ipsj.ixsq.nii.ac.jp/records/238505
d5d05e4a-1ba7-4482-ba5d-f2f7a4832c3a
名前 / ファイル ライセンス アクション
IPSJ-NL24261012.pdf IPSJ-NL24261012.pdf (3.7 MB)
 2026年8月27日からダウンロード可能です。
Copyright (c) 2024 by the Information Processing Society of Japan
非会員:¥660, IPSJ:学会員:¥330, NL:会員:¥0, DLIB:会員:¥0
Item type SIG Technical Reports(1)
公開日 2024-08-27
タイトル
タイトル LLMに日本語テキストを学習させる意義
タイトル
言語 en
タイトル Advantages of Training LLMs on Japanese Text
言語
言語 jpn
キーワード
主題Scheme Other
主題 LLM応用・言語解析
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_18gh
資源タイプ technical report
著者所属
東京工業大学
著者所属
東京工業大学/産業技術総合研究所
著者所属
東京工業大学
著者所属
東京工業大学
著者所属
東京工業大学
著者所属
東京工業大学
著者所属
東京工業大学
著者所属
東京工業大学
著者所属
東京工業大学
著者所属
東京工業大学
著者所属
東京工業大学
著者所属
産業技術総合研究所
著者所属
東京工業大学
著者所属
東京工業大学
著者名 齋藤, 幸史郎

× 齋藤, 幸史郎

齋藤, 幸史郎

Search repository
水木, 栄

× 水木, 栄

水木, 栄

Search repository
大井, 聖也

× 大井, 聖也

大井, 聖也

Search repository
中村, 泰士

× 中村, 泰士

中村, 泰士

Search repository
塩谷, 泰平

× 塩谷, 泰平

塩谷, 泰平

Search repository
前田, 航希

× 前田, 航希

前田, 航希

Search repository
Youmi, Ma

× Youmi, Ma

Youmi, Ma

Search repository
服部, 翔

× 服部, 翔

服部, 翔

Search repository
藤井, 一喜

× 藤井, 一喜

藤井, 一喜

Search repository
岡本, 拓己

× 岡本, 拓己

岡本, 拓己

Search repository
石田, 茂樹

× 石田, 茂樹

石田, 茂樹

Search repository
高村, 大也

× 高村, 大也

高村, 大也

Search repository
横田, 理央

× 横田, 理央

横田, 理央

Search repository
岡崎, 直観

× 岡崎, 直観

岡崎, 直観

Search repository
論文抄録
内容記述タイプ Other
内容記述 日本語のテキストを学習することの意義,そして日本語に強い大規模言語モデル(LLM)の特徴は何であろうか.本研究では,35 種類の日本語・英語の LLM を日英 19 件のタスクで統一的に評価することで,言語とタスク性能の関連性を定量的に分析した.その結果,次の三つの知見を得た.まず,タスク性能の相関行列を分析し,一般教養やコード生成,算術推論は英語と日本語の性能がほぼ比例することを見出した(4.2 節で詳述する).次に,相関行列の主成分分析により,有意義な主成分を三つ確認した.第1主成分は日英問わず大半のタスクに寄与する基礎能力的な因子,第 2 主成分は日本語質問応答と英日翻訳に寄与する因子,第 3 主成分は算術推論とコード生成に寄与する因子である(4.3 節で詳述する).最後に,主成分得点と計算予算の対数との関係を分析し,第 1 主成分は英語向け計算予算,第 2 主成分は日本語向け計算予算に比例することを見出した(ここで,計算予算=パラメータ数×学習トークン数であり,4.4 節で詳述する).以上の分析から,LLM に日本語テキストを学習させることは,主に日本に関する知識の獲得および英日翻訳の向上という効果をもたらすことが示唆された.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AN10115061
書誌情報 研究報告自然言語処理(NL)

巻 2024-NL-261, 号 12, p. 1-15, 発行日 2024-08-27
ISSN
収録物識別子タイプ ISSN
収録物識別子 2188-8779
Notice
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-19 08:32:48.427374
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3