ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 研究報告
  2. 自然言語処理(NL)
  3. 2024
  4. 2024-NL-261

トークン率を用いた大規模Webコーパスからのドメイン抽出法

https://ipsj.ixsq.nii.ac.jp/records/238503
https://ipsj.ixsq.nii.ac.jp/records/238503
dcb189e4-bd96-449c-9ac6-0b5d2a714a53
名前 / ファイル ライセンス アクション
IPSJ-NL24261010.pdf IPSJ-NL24261010.pdf (1.1 MB)
 2026年8月27日からダウンロード可能です。
Copyright (c) 2024 by the Information Processing Society of Japan
非会員:¥660, IPSJ:学会員:¥330, NL:会員:¥0, DLIB:会員:¥0
Item type SIG Technical Reports(1)
公開日 2024-08-27
タイトル
タイトル トークン率を用いた大規模Webコーパスからのドメイン抽出法
言語
言語 jpn
キーワード
主題Scheme Other
主題 言語資源・評価
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_18gh
資源タイプ technical report
著者所属
日本女子大学大学院理学研究科数理・物性構造科学専攻
著者所属
日本女子大学大学院理学研究科数理・物性構造科学専攻
著者所属
日本女子大学理学部数物情報科学科
著者所属
日本女子大学大学院理学研究科数理・物性構造科学専攻
著者所属
日本女子大学理学部数物情報科学科
著者所属(英)
en
Graduate School of Science Division of Mathematical and Physical Sciences, Japan Women's University
著者所属(英)
en
Graduate School of Science Division of Mathematical and Physical Sciences, Japan Women's University
著者所属(英)
en
Department of Mathematics, Physics, and Computer Science, Japan Women's University
著者所属(英)
en
Graduate School of Science Division of Mathematical and Physical Sciences, Japan Women's University
著者所属(英)
en
Department of Mathematics, Physics, and Computer Science, Japan Women's University
著者名 伊東, 和香

× 伊東, 和香

伊東, 和香

Search repository
小原, 有以

× 小原, 有以

小原, 有以

Search repository
長谷川, 愛珠

× 長谷川, 愛珠

長谷川, 愛珠

Search repository
相馬, 菜生

× 相馬, 菜生

相馬, 菜生

Search repository
倉光, 君郎

× 倉光, 君郎

倉光, 君郎

Search repository
論文抄録
内容記述タイプ Other
内容記述 現在,大規模言語モデル(Large Language Model, LLM)の研究開発が盛んに行われているが,特定のドメインにおける LLM の応用も期待されている.ただし一般的な Web コーパスで学習された LLM はドメイン知識が不足することが懸念されている.ドメインに特化したコーパスで LLM を事前学習させることが理想的だが,これらのコーパスの収集や作成は容易ではない.本研究では大規模な Web コーパスから特定のドメインに関連するテキストのみを抽出する手法を提案する.提案手法では,あるドメイン専用のサブワード辞書を作成した後に,Web コーパスに含まれるテキストのトークン率を算出し,テキストをドメイン関連またはドメイン非関連に分類する.これにより,効率的にドメイン関連テキストを抽出し,ドメインコーパスを作成することができる.本論文では提案手法を紹介するとともに,複数のドメインで実験を行い,サブワード辞書の品質調査結果とドメインテキストの抽出結果を報告する.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AN10115061
書誌情報 研究報告自然言語処理(NL)

巻 2024-NL-261, 号 10, p. 1-7, 発行日 2024-08-27
ISSN
収録物識別子タイプ ISSN
収録物識別子 2188-8779
Notice
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-19 08:32:51.035810
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3