Item type |
SIG Technical Reports(1) |
公開日 |
2023-08-25 |
タイトル |
|
|
タイトル |
llm-japanese-dataset v0: 大規模言語モデルのための日本語チャットデータセット構築 |
タイトル |
|
|
言語 |
en |
|
タイトル |
llm-japanese-dataset v0: Construction of Japanese Chat Dataset for Large Language Models |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
データ構築とその有用性 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
東京大学 |
著者所属 |
|
|
|
東京大学 |
著者所属 |
|
|
|
東京大学 |
著者所属(英) |
|
|
|
en |
|
|
The University of Tokyo |
著者所属(英) |
|
|
|
en |
|
|
The University of Tokyo |
著者所属(英) |
|
|
|
en |
|
|
The University of Tokyo |
著者名 |
平野, 正徳
鈴木, 雅弘
坂地, 泰紀
|
著者名(英) |
Masanori, Hirano
Masahiro, Suzuki
Hiroki, Sakaji
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
本研究では,大規模言語モデルのための,日本語チャットデータセットを構築した.本データセットは,約 840 万件のデータを含んでおり,翻訳タスクや,知識タスクなど,様々なタスクをチャット形式で含んだものとなっている.構築したデータセットの有効性を確認するために,既存の大規模言語モデルをチューニングし,性能向上を定性的に確認し,日本語における大規模言語モデルや言語資源の構築における課題を明らかにした. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
This study constructed a Japanese chat dataset for large language models. The dataset contains approximately 8.4 million records and includes various tasks in chat format, such as translation and knowledge tasks. To confirm the benefits of our constructed dataset, we tuned an existing large language model and confirmed its performance qualitatively. Those results revealed challenges in building large language models and language resources for them in Japanese. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10115061 |
書誌情報 |
研究報告自然言語処理(NL)
巻 2023-NL-257,
号 7,
p. 1-7,
発行日 2023-08-25
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8779 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |