ドメイン適応のためのSentencePieceにおける語彙追加

梶浦, 照乃; 相馬, 菜生; 髙野, 志歩; 平岡, 達也; 倉光, 君郎

WEKO3

lat lon distance

[[sub_check.contents]]

[[sub_radio.contents]]

Field does not validate

[[sub_attr.contents]]　

インデックスツリー

アイテム

ドメイン適応のためのSentencePieceにおける語彙追加

https://ipsj.ixsq.nii.ac.jp/records/227597

名前 / ファイル	ライセンス	アクション
IPSJ-NL23257013.pdf (1.1 MB)	Copyright (c) 2023 by the Information Processing Society of Japan
オープンアクセス

Item type

SIG Technical Reports(1)

公開日

2023-08-25

タイトル

ドメイン適応のためのSentencePieceにおける語彙追加

言語

jpn

キーワード

主題Scheme

Other

主題

若手・萌芽セッション

資源タイプ

資源タイプ識別子

http://purl.org/coar/resource_type/c_18gh

資源タイプ

technical report

著者所属

日本女子大学院理学研究科数理・物性構造科学専攻

著者所属

日本女子大学院理学研究科数理・物性構造科学専攻

著者所属

日本女子大学院理学研究科数理・物性構造科学専攻

著者所属

富士通株式会社／東京工業大学

著者所属

日本女子大学理学部数物情報科学科

著者名

梶浦, 照乃
相馬, 菜生
髙野, 志歩
平岡, 達也
倉光, 君郎

論文抄録

内容記述タイプ

Other

内容記述

大規模言語モデルなどの事前学習済みモデルを新たなドメインに適応させるとき，トークナイザーの語彙の不適合が性能向上のボトルネックになる．この問題は，ドメインに適応していないトークナイザーがドメイン固有の語彙を過分割してしまうことに起因する．単純な解決方策として語彙拡張が考えられるが，語彙の規模が増加するため計算効率を犠牲にしてしまう．そこで本研究では，既存の語彙から他の語を組み合わせて表現可能な語を削除することで，新たな語彙追加の余地を生み出す手法を提案する．これにより，語彙の規模を変えること無く，トークナイザーをドメインに適応させることができる．日本語 T5 と多言語 T5 に含まれる日本語の語彙を対象に行った実験では，6,000 語以上のトークンを削除し，語彙の追加が可能となることが分かった．実際に Python 言語の語彙（予約語/識別子）を追加して追加学習を行うことで，プログラミングタスクで性能向上が得られたことを報告する．

書誌レコードID

収録物識別子タイプ

NCID

収録物識別子

AN10115061

書誌情報

研究報告自然言語処理（NL）

巻 2023-NL-257, 号 13, p. 1-7, 発行日 2023-08-25

ISSN

収録物識別子タイプ

ISSN

収録物識別子

2188-8779

Notice

SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.

出版者

言語

出版者

情報処理学会

戻る

views

See details

	Views

Versions

Ver.1

2025-01-19 12:07:42.882691

Show All versions

Cite as

エクスポート

OAI-PMH

JPCOAR
DublinCore
DDI

Other Formats

JSON
BIBTEX

インデックスリンク

インデックスツリー

アイテム

ドメイン適応のためのSentencePieceにおける語彙追加

× 梶浦, 照乃

× 相馬, 菜生

× 髙野, 志歩

× 平岡, 達也

× 倉光, 君郎

Versions

Share

Cite as

エクスポート