| Item type |
SIG Technical Reports(1) |
| 公開日 |
2023-08-25 |
| タイトル |
|
|
タイトル |
ドメイン適応のためのSentencePieceにおける語彙追加 |
| 言語 |
|
|
言語 |
jpn |
| キーワード |
|
|
主題Scheme |
Other |
|
主題 |
若手・萌芽セッション |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
| 著者所属 |
|
|
|
日本女子大学院理学研究科数理・物性構造科学専攻 |
| 著者所属 |
|
|
|
日本女子大学院理学研究科数理・物性構造科学専攻 |
| 著者所属 |
|
|
|
日本女子大学院理学研究科数理・物性構造科学専攻 |
| 著者所属 |
|
|
|
富士通株式会社/東京工業大学 |
| 著者所属 |
|
|
|
日本女子大学理学部数物情報科学科 |
| 著者名 |
梶浦, 照乃
相馬, 菜生
髙野, 志歩
平岡, 達也
倉光, 君郎
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
大規模言語モデルなどの事前学習済みモデルを新たなドメインに適応させるとき,トークナイザーの語彙の不適合が性能向上のボトルネックになる.この問題は,ドメインに適応していないトークナイザーがドメイン固有の語彙を過分割してしまうことに起因する.単純な解決方策として語彙拡張が考えられるが,語彙の規模が増加するため計算効率を犠牲にしてしまう.そこで本研究では,既存の語彙から他の語を組み合わせて表現可能な語を削除することで,新たな語彙追加の余地を生み出す手法を提案する.これにより,語彙の規模を変えること無く,トークナイザーをドメインに適応させることができる.日本語 T5 と多言語 T5 に含まれる日本語の語彙を対象に行った実験では,6,000 語以上のトークンを削除し,語彙の追加が可能となることが分かった.実際に Python 言語の語彙(予約語/識別子)を追加して追加学習を行うことで,プログラミングタスクで性能向上が得られたことを報告する. |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10115061 |
| 書誌情報 |
研究報告自然言語処理(NL)
巻 2023-NL-257,
号 13,
p. 1-7,
発行日 2023-08-25
|
| ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8779 |
| Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |