Item type |
SIG Technical Reports(1) |
公開日 |
2024-06-21 |
タイトル |
|
|
タイトル |
契約書条文に特化した文埋め込みモデルの構築 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Sentence Embedding Modeling for Contract Articles |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
分析・応用 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
早稲田大学 |
著者所属 |
|
|
|
株式会社LegalOn Technologies |
著者所属 |
|
|
|
株式会社LegalOn Technologies |
著者所属(英) |
|
|
|
en |
|
|
Waseda University |
著者所属(英) |
|
|
|
en |
|
|
LegalOn Technologies, Inc. |
著者所属(英) |
|
|
|
en |
|
|
LegalOn Technologies, Inc. |
著者名 |
王, 昊
藤田, 正悟
神田, 峻介
|
著者名(英) |
Hao, Wang
Shogo, Fujita
Shunsuke, Kanda
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
対照学習による文埋め込みモデルは,検索拡張生成を代表とした自然言語処理タスクにおいて活用されており,重要な研究分野として注目されている.しかし,多くの文埋め込みモデルは,Wikipedia などの汎用的なコーパスで学習されており,契約書のような専門用語が多く含まれる文章に対し性能を発揮できない場合がある.本研究では,契約書条文分類データセットを用いて,契約書条文に特化した文埋め込みモデルの構築を試みる.教師なし,教師あり対照学習をそれぞれ用いて学習し,性能検証を行う.複数のバッチの構築手法についても実験を行う.条文のマルチラベル分類タスクで評価を行い,教師あり対照学習で得られた文埋め込みモデルは汎用的なコーパスで学習された SimCSE モデルよりも優れた結果を示すことを確認した.また,別の契約書分類タスクを用いて評価を行い,実験で得られた文埋め込みモデルは契約書ドメインにおいて汎用的な性能を持つことを確認した. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
Contrastive learning based sentence embedding models are being utilized in various natural language processing tasks, such as retrieval-augmented generation, garnering significant attention as a crucial research domain. However, many sentence embedding models are trained on general texts such as Wikipedia, which may not perform optimally when applied to documents containing numerous technical terms, such as contracts. In this study, we aim to construct a sentence embedding model specialized for contract processing using a contract article classification dataset. We conduct training using unsupervised contrastive learning as well as supervised contrastive learning. We also experiment with different mini-batch construction methods. Through evaluation on an article multi-label classification task, we confirm that the sentence embedding model trained with supervised contrastive learning outperforms the SimCSE model trained on general texts. Additionally, through evaluation on another contract classification task, we confirm that the obtained sentence embedding model exhibits generalizability in the contract domain. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10115061 |
書誌情報 |
研究報告自然言語処理(NL)
巻 2024-NL-260,
号 25,
p. 1-6,
発行日 2024-06-21
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8779 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |