Item type |
SIG Technical Reports(1) |
公開日 |
2021-09-21 |
タイトル |
|
|
タイトル |
複数のBERTモデルを利用したData Augmentation |
タイトル |
|
|
言語 |
en |
|
タイトル |
Data Augmentation using multiple BERT models |
言語 |
|
|
言語 |
jpn |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
茨城大学工学部情報工学科 |
著者所属 |
|
|
|
茨城大学大学院理工学研究科情報科学領域 |
著者所属(英) |
|
|
|
en |
|
|
Department of Computer and Information Sciences, College of Engineering, Ibaraki University |
著者所属(英) |
|
|
|
en |
|
|
Graduate School of Science and Engineering, Department of Computer and Information Sciences, Ibaraki University |
著者名 |
高萩, 恭介
新納, 浩幸
|
著者名(英) |
Kyosuke, Takahagi
Hiroyuki, Shinnou
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
自然言語処理の分野における簡易な Data Augmentation の手法として,文中の単語をその類似単語に置き換えるというものがある.しかしこの手法は BERT のような事前学習済みモデルを利用する場合には,効果が期待できない.類似単語の知識が BERT に既に組み込まれていると考えられるからである.ここではタスク処理に利用する BERT とは別の BERT の Masked Language Model を利用して類似単語を得ることを提案する.この場合,タスク処理用の BERT に組み込まれていない類似単語の知識を利用できるために,Data Augmentation の効果が期待できる.実験では livedoor ニュースコーパスを利用した文書分類タスクに対して,提案手法による Data Augmentation を試み,提案手法の有効性を示した. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10115061 |
書誌情報 |
研究報告自然言語処理(NL)
巻 2021-NL-250,
号 4,
p. 1-7,
発行日 2021-09-21
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8779 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |