WEKO3
アイテム
ドメイン適応のためのトークン単位の擬似尤度に基づくマスク戦略
https://ipsj.ixsq.nii.ac.jp/records/233524
https://ipsj.ixsq.nii.ac.jp/records/2335244bda57a6-0d97-45bc-ab5c-072ab77f9fef
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]()
2026年3月18日からダウンロード可能です。
|
Copyright (c) 2024 by the Information Processing Society of Japan
|
|
非会員:¥660, IPSJ:学会員:¥330, IFAT:会員:¥0, DLIB:会員:¥0 |
Item type | SIG Technical Reports(1) | |||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|
公開日 | 2024-03-18 | |||||||||||
タイトル | ||||||||||||
タイトル | ドメイン適応のためのトークン単位の擬似尤度に基づくマスク戦略 | |||||||||||
言語 | ||||||||||||
言語 | jpn | |||||||||||
資源タイプ | ||||||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||||||
資源タイプ | technical report | |||||||||||
著者所属 | ||||||||||||
同志社大学大学院文化情報学研究科 | ||||||||||||
著者所属 | ||||||||||||
名古屋大学数理・データ科学教育研究センター | ||||||||||||
著者所属 | ||||||||||||
同志社大学文化情報学部 | ||||||||||||
著者所属(英) | ||||||||||||
en | ||||||||||||
Graduate School of Culture and Information Science, Doshisha University | ||||||||||||
著者所属(英) | ||||||||||||
en | ||||||||||||
Mathematical and Data Science Center, Nagoya University | ||||||||||||
著者所属(英) | ||||||||||||
en | ||||||||||||
Faculty of Culture and Information Science, Doshisha University | ||||||||||||
著者名 |
木村, 優介
× 木村, 優介
× 駒水, 孝裕
× 波多野, 賢治
|
|||||||||||
論文抄録 | ||||||||||||
内容記述タイプ | Other | |||||||||||
内容記述 | 事前学習済み言語モデルは,事前学習のコーパスと異なるドメインのデータを扱う際,ドメインシフトのため性能が低下する問題に直面する.この問題に対する効果的な解決策として,事前学習後にドメイン適応を施す手法が提案されている.MLM(Masked Language Modeling)に基づく既存のドメイン適応手法では,マスクしたトークンを予測することで,ドメインの言語知識を獲得しようとする.しかし,既存手法では文中のすべてのトークンを同じ確率でマスクするため,当該ドメインの言語知識が十分に学習されない可能性がある.そこで本研究では,双方向言語モデルを用いてトークンの擬似尤度を計算し,ドメイン固有の知識を持つ可能性が高いが尤度が低いトークンを重点的にマスクすることで,言語モデルが当該ドメインに関する情報を積極的に学習するように促す新しいマスク戦略を提案する.本研究では,ドメインシフトが発生する 3 種類の文書分類タスクにおいて評価実験を行い,提案手法の有効性を示す. | |||||||||||
書誌レコードID | ||||||||||||
収録物識別子タイプ | NCID | |||||||||||
収録物識別子 | AN10114171 | |||||||||||
書誌情報 |
研究報告情報基礎とアクセス技術(IFAT) 巻 2024-IFAT-154, 号 1, p. 1-6, 発行日 2024-03-18 |
|||||||||||
ISSN | ||||||||||||
収録物識別子タイプ | ISSN | |||||||||||
収録物識別子 | 2188-8884 | |||||||||||
Notice | ||||||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||||||
出版者 | ||||||||||||
言語 | ja | |||||||||||
出版者 | 情報処理学会 |