ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 研究報告
  2. 自然言語処理(NL)
  3. 2024
  4. 2024-NL-260

大規模言語モデル評価のための四字熟語データセットの作成

https://ipsj.ixsq.nii.ac.jp/records/235103
https://ipsj.ixsq.nii.ac.jp/records/235103
c137ccbe-817c-4563-91b6-76f8470b539b
名前 / ファイル ライセンス アクション
IPSJ-NL24260012.pdf IPSJ-NL24260012.pdf (1.1 MB)
 2026年6月21日からダウンロード可能です。
Copyright (c) 2024 by the Information Processing Society of Japan
非会員:¥660, IPSJ:学会員:¥330, NL:会員:¥0, DLIB:会員:¥0
Item type SIG Technical Reports(1)
公開日 2024-06-21
タイトル
タイトル 大規模言語モデル評価のための四字熟語データセットの作成
言語
言語 jpn
キーワード
主題Scheme Other
主題 言語資源 (1)
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_18gh
資源タイプ technical report
著者所属
茨城大学大学院理工学研究科
著者所属
茨城大学大学院理工学研究科
著者所属(英)
en
Graduate School of Science and Engineering, Ibaraki University
著者所属(英)
en
Graduate School of Science and Engineering, Ibaraki University
著者名 藤井, 真

× 藤井, 真

藤井, 真

Search repository
新納, 浩幸

× 新納, 浩幸

新納, 浩幸

Search repository
論文抄録
内容記述タイプ Other
内容記述 大規模言語モデルは膨大なパラメータを調整するために大量のウェブコーパスを用いている.日本語モデルも同様だが,ウェブコーパスの質は玉石混淆で「日本語」を学習する上で質と量のバランスがとれているか定かでない.この点はモデルのサイズが日本語を収めるために不十分な状況で考慮すべきである.モデルがウェブコーパス上の量から日本語とは何かを判断し,取捨選択する可能性があるためである.本研究では,この懸念を確認するため日本語モデルの四字熟語生成性能を評価する.四字熟語は学習指導要領に載りながらも,実生活上は専門用語のような頻度と性質で使用されるためウェブコーパスのままでは学習しにくい日本語と推察する.また,モデルのトークナイザからはトークンに分割されやすく学習や生成の難度が高い語と考える.四字熟語生成性能評価のためのデータセットを作成し,日本語モデルを評価した結果を報告する.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AN10115061
書誌情報 研究報告自然言語処理(NL)

巻 2024-NL-260, 号 12, p. 1-6, 発行日 2024-06-21
ISSN
収録物識別子タイプ ISSN
収録物識別子 2188-8779
Notice
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-19 09:36:37.465872
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3