| Item type |
SIG Technical Reports(1) |
| 公開日 |
2024-08-27 |
| タイトル |
|
|
タイトル |
トークン率を用いた大規模Webコーパスからのドメイン抽出法 |
| 言語 |
|
|
言語 |
jpn |
| キーワード |
|
|
主題Scheme |
Other |
|
主題 |
言語資源・評価 |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
| 著者所属 |
|
|
|
日本女子大学大学院理学研究科数理・物性構造科学専攻 |
| 著者所属 |
|
|
|
日本女子大学大学院理学研究科数理・物性構造科学専攻 |
| 著者所属 |
|
|
|
日本女子大学理学部数物情報科学科 |
| 著者所属 |
|
|
|
日本女子大学大学院理学研究科数理・物性構造科学専攻 |
| 著者所属 |
|
|
|
日本女子大学理学部数物情報科学科 |
| 著者所属(英) |
|
|
|
en |
|
|
Graduate School of Science Division of Mathematical and Physical Sciences, Japan Women's University |
| 著者所属(英) |
|
|
|
en |
|
|
Graduate School of Science Division of Mathematical and Physical Sciences, Japan Women's University |
| 著者所属(英) |
|
|
|
en |
|
|
Department of Mathematics, Physics, and Computer Science, Japan Women's University |
| 著者所属(英) |
|
|
|
en |
|
|
Graduate School of Science Division of Mathematical and Physical Sciences, Japan Women's University |
| 著者所属(英) |
|
|
|
en |
|
|
Department of Mathematics, Physics, and Computer Science, Japan Women's University |
| 著者名 |
伊東, 和香
小原, 有以
長谷川, 愛珠
相馬, 菜生
倉光, 君郎
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
現在,大規模言語モデル(Large Language Model, LLM)の研究開発が盛んに行われているが,特定のドメインにおける LLM の応用も期待されている.ただし一般的な Web コーパスで学習された LLM はドメイン知識が不足することが懸念されている.ドメインに特化したコーパスで LLM を事前学習させることが理想的だが,これらのコーパスの収集や作成は容易ではない.本研究では大規模な Web コーパスから特定のドメインに関連するテキストのみを抽出する手法を提案する.提案手法では,あるドメイン専用のサブワード辞書を作成した後に,Web コーパスに含まれるテキストのトークン率を算出し,テキストをドメイン関連またはドメイン非関連に分類する.これにより,効率的にドメイン関連テキストを抽出し,ドメインコーパスを作成することができる.本論文では提案手法を紹介するとともに,複数のドメインで実験を行い,サブワード辞書の品質調査結果とドメインテキストの抽出結果を報告する. |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10115061 |
| 書誌情報 |
研究報告自然言語処理(NL)
巻 2024-NL-261,
号 10,
p. 1-7,
発行日 2024-08-27
|
| ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8779 |
| Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |