@techreport{oai:ipsj.ixsq.nii.ac.jp:00227597, author = {梶浦, 照乃 and 相馬, 菜生 and 髙野, 志歩 and 平岡, 達也 and 倉光, 君郎}, issue = {13}, month = {Aug}, note = {大規模言語モデルなどの事前学習済みモデルを新たなドメインに適応させるとき,トークナイザーの語彙の不適合が性能向上のボトルネックになる.この問題は,ドメインに適応していないトークナイザーがドメイン固有の語彙を過分割してしまうことに起因する.単純な解決方策として語彙拡張が考えられるが,語彙の規模が増加するため計算効率を犠牲にしてしまう.そこで本研究では,既存の語彙から他の語を組み合わせて表現可能な語を削除することで,新たな語彙追加の余地を生み出す手法を提案する.これにより,語彙の規模を変えること無く,トークナイザーをドメインに適応させることができる.日本語 T5 と多言語 T5 に含まれる日本語の語彙を対象に行った実験では,6,000 語以上のトークンを削除し,語彙の追加が可能となることが分かった.実際に Python 言語の語彙(予約語/識別子)を追加して追加学習を行うことで,プログラミングタスクで性能向上が得られたことを報告する.}, title = {ドメイン適応のためのSentencePieceにおける語彙追加}, year = {2023} }