WEKO3
アイテム
固有表現抽出タスクにおける文章のランダム連結によるデータ拡張
https://ipsj.ixsq.nii.ac.jp/records/231493
https://ipsj.ixsq.nii.ac.jp/records/2314931dc2a29a-0300-4213-b56d-1892bf99d243
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]()
2025年12月13日からダウンロード可能です。
|
Copyright (c) 2023 by the Information Processing Society of Japan
|
|
非会員:¥660, IPSJ:学会員:¥330, IFAT:会員:¥0, DLIB:会員:¥0 |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2023-12-13 | |||||||
タイトル | ||||||||
タイトル | 固有表現抽出タスクにおける文章のランダム連結によるデータ拡張 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Data augmentation by random concatenation of sentences for Named Entity Recognition | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | 言語モデルとデータ拡張 | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
(株)ユーザベース, UB Research | ||||||||
著者所属(英) | ||||||||
en | ||||||||
UB Research, Uzabase, Inc. | ||||||||
著者名 |
田村, 光太郎
× 田村, 光太郎
|
|||||||
著者名(英) |
Koutarou, Tamura
× Koutarou, Tamura
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 我々は,ニューステキストの情報構造化を,固有表現抽出タスクとして解く.モデルの訓練データを構築するにあたり,固有表現の位置をアノテーションする系列ラベリングは,テキストの精読が必要となり,継続的に高品質な教師データを作成することが難しい.そのため,少量のデータを利用した効率的な学習として,テキストに対する拡張手法を適用することを試みた.固有表現のデータ拡張としては,トークンの交換,挿入・削除,類語への置換,ランダマイズを実施することが主流となるが,ここでは文章のランダムな連結操作により,教師データとは大きく特徴が異なるテキストを生成し,学習を行った.これらの拡張手法におけるデータ量やその強度での精度変化を調べ,モデルの精度向上を行った. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | Information structuring of news texts is recognized as a named entity recognition (NER). In constructing the training data for the NER model, we prepare sequential labeling data with the span information of named entities. However, it requires prec ise reading of the text, making it difficult to produce and maintain high-quality data. Due to the cost of annotating a large amount of text data, we attempted to apply augmentation methods to our news text data. First, we proposed an augmentation method defined as the concatenation of the sentences while conserving the characteristics of the original data. Our method is categorized into the existing method, Mix-Up, for image data, and the numerical experiment showed it is expected to improve a model in terms of accuracy. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10114171 | |||||||
書誌情報 |
研究報告情報基礎とアクセス技術(IFAT) 巻 2023-IFAT-153, 号 3, p. 1-5, 発行日 2023-12-13 |
|||||||
ISSN | ||||||||
収録物識別子タイプ | ISSN | |||||||
収録物識別子 | 2188-8884 | |||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |