@techreport{oai:ipsj.ixsq.nii.ac.jp:00238503, author = {伊東, 和香 and 小原, 有以 and 長谷川, 愛珠 and 相馬, 菜生 and 倉光, 君郎}, issue = {10}, month = {Aug}, note = {現在,大規模言語モデル(Large Language Model, LLM)の研究開発が盛んに行われているが,特定のドメインにおける LLM の応用も期待されている.ただし一般的な Web コーパスで学習された LLM はドメイン知識が不足することが懸念されている.ドメインに特化したコーパスで LLM を事前学習させることが理想的だが,これらのコーパスの収集や作成は容易ではない.本研究では大規模な Web コーパスから特定のドメインに関連するテキストのみを抽出する手法を提案する.提案手法では,あるドメイン専用のサブワード辞書を作成した後に,Web コーパスに含まれるテキストのトークン率を算出し,テキストをドメイン関連またはドメイン非関連に分類する.これにより,効率的にドメイン関連テキストを抽出し,ドメインコーパスを作成することができる.本論文では提案手法を紹介するとともに,複数のドメインで実験を行い,サブワード辞書の品質調査結果とドメインテキストの抽出結果を報告する.}, title = {トークン率を用いた大規模Webコーパスからのドメイン抽出法}, year = {2024} }