@techreport{oai:ipsj.ixsq.nii.ac.jp:00235093, author = {村脇, 有吾}, issue = {2}, month = {Jun}, note = {Transformer に基づく事前訓練文字言語モデルから単語言語モデルへの教師なし合成の実現可能性を示す.教師なし単語分割における興味の中心は学習を実現する帰納バイアスを明らかにすることだが,ニューラル言語モデルに基づく場合,アーキテクチャ上の制約から有限語彙を前提とするにもかかわらず,教師なし単語分割においては語彙を事前に決定できないという問題への取り組みを中心に据えざるを得ない.本稿では,この問題を解決するために多段階の訓練手続きを提案する.提案手法は単語境界における確率的不確実性を取っ掛かりとして利用しており,幼児の初期学習との関連が示唆される., We demonstrate the feasibility of transforming a Transformer-based pretrained character language model into a word language model without explicit supervision on word segmentation. While the main interest in unsupervised word segmentation lies in identifying the inductive biases that facilitate language acquisition, neural language models face technical challenges due to their architectural constraints requiring a fixed vocabulary, despite the inability to predefine this vocabulary in unsupervised settings. To address this issue, we propose a multi-stage training procedure. Our method leverages the stochastic uncertainty pertaining to word boundaries to bootstrap the process, suggesting a connection to early learning in infants.}, title = {文字言語モデルからの単語言語モデルの教師なし合成}, year = {2024} }