Item type |
SIG Technical Reports(1) |
公開日 |
2022-06-22 |
タイトル |
|
|
タイトル |
日本語文の文節シャッフルによるData Augmentation |
タイトル |
|
|
言語 |
en |
|
タイトル |
Data Augmentation by Shuffling Phrases in a Japanese Sentence |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
言語分析・評価 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
茨城大学大学院理工学研究科情報工学専攻 |
著者所属 |
|
|
|
茨城大学大学院理工学研究科情報科学領域 |
著者所属(英) |
|
|
|
en |
|
|
Major in Computer and Information Sciences, Graduate School of Science and Engineering, Ibaraki University |
著者所属(英) |
|
|
|
en |
|
|
Graduate School of Science and Engineering, Department of Computer and Information Sciences, Ibaraki University |
著者名 |
高萩, 恭介
新納, 浩幸
|
著者名(英) |
Kyosuke, Takahagi
Hiroyuki, Shinnou
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
教師あり学習に用いる Data Augmentation (DA) とは,ラベル付きデータに対して,ラベルを変えずにデータに何らかの変換を施し,変換後のデータを拡張データとして訓練データに追加する手法である.DA を適用するデータが文である場合,データ変換時に文の意味が変化してしまうと,拡張データがノイズとなる可能性がある.そのため,変換時に文の意味が変わらないようにする必要がある.本研究では,日本語の場合,係り受け関係が崩れていない限り,文節の順序を変更しても文の意味が変化しないことに着目し,文のデータ変換として文節の係り受け関係を考慮した文節のシャッフルを行う DA 手法を提案する.実験では livedoor ニュースコーパスを用いた文書分類タスクを設定し,提案手法の有効性を示した.また文節の係り受け関係を考慮せずに文節のシャッフルを行う場合との比較,訓練データのサイズと提案手法の効果との関係,及び対照学習への利用に関して考察した. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10115061 |
書誌情報 |
研究報告自然言語処理(NL)
巻 2022-NL-252,
号 6,
p. 1-7,
発行日 2022-06-22
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8779 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |