ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 研究報告
  2. 情報基礎とアクセス技術(IFAT)
  3. 2023
  4. 2023-IFAT-153

固有表現抽出タスクにおける文章のランダム連結によるデータ拡張

https://ipsj.ixsq.nii.ac.jp/records/231493
https://ipsj.ixsq.nii.ac.jp/records/231493
1dc2a29a-0300-4213-b56d-1892bf99d243
名前 / ファイル ライセンス アクション
IPSJ-IFAT23153003.pdf IPSJ-IFAT23153003.pdf (562.1 kB)
 2025年12月13日からダウンロード可能です。
Copyright (c) 2023 by the Information Processing Society of Japan
非会員:¥660, IPSJ:学会員:¥330, IFAT:会員:¥0, DLIB:会員:¥0
Item type SIG Technical Reports(1)
公開日 2023-12-13
タイトル
タイトル 固有表現抽出タスクにおける文章のランダム連結によるデータ拡張
タイトル
言語 en
タイトル Data augmentation by random concatenation of sentences for Named Entity Recognition
言語
言語 jpn
キーワード
主題Scheme Other
主題 言語モデルとデータ拡張
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_18gh
資源タイプ technical report
著者所属
(株)ユーザベース, UB Research
著者所属(英)
en
UB Research, Uzabase, Inc.
著者名 田村, 光太郎

× 田村, 光太郎

田村, 光太郎

Search repository
著者名(英) Koutarou, Tamura

× Koutarou, Tamura

en Koutarou, Tamura

Search repository
論文抄録
内容記述タイプ Other
内容記述 我々は,ニューステキストの情報構造化を,固有表現抽出タスクとして解く.モデルの訓練データを構築するにあたり,固有表現の位置をアノテーションする系列ラベリングは,テキストの精読が必要となり,継続的に高品質な教師データを作成することが難しい.そのため,少量のデータを利用した効率的な学習として,テキストに対する拡張手法を適用することを試みた.固有表現のデータ拡張としては,トークンの交換,挿入・削除,類語への置換,ランダマイズを実施することが主流となるが,ここでは文章のランダムな連結操作により,教師データとは大きく特徴が異なるテキストを生成し,学習を行った.これらの拡張手法におけるデータ量やその強度での精度変化を調べ,モデルの精度向上を行った.
論文抄録(英)
内容記述タイプ Other
内容記述 Information structuring of news texts is recognized as a named entity recognition (NER). In constructing the training data for the NER model, we prepare sequential labeling data with the span information of named entities. However, it requires prec ise reading of the text, making it difficult to produce and maintain high-quality data. Due to the cost of annotating a large amount of text data, we attempted to apply augmentation methods to our news text data. First, we proposed an augmentation method defined as the concatenation of the sentences while conserving the characteristics of the original data. Our method is categorized into the existing method, Mix-Up, for image data, and the numerical experiment showed it is expected to improve a model in terms of accuracy.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AN10114171
書誌情報 研究報告情報基礎とアクセス技術(IFAT)

巻 2023-IFAT-153, 号 3, p. 1-5, 発行日 2023-12-13
ISSN
収録物識別子タイプ ISSN
収録物識別子 2188-8884
Notice
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-19 10:44:31.857933
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3