@techreport{oai:ipsj.ixsq.nii.ac.jp:00220231, author = {井筒, 順 and 古宮, 嘉那子 and 新納, 浩幸}, issue = {1}, month = {Sep}, note = {日本語を形態素に解析するために MeCab や Chasen 等の形態素解析システムが存在している.現在存在している日本語の形態素解析システムの精度は非常に高いが,これらのシステムは漢字仮名混じりの文を対象にしているため,平仮名で書かれた文を形態素に分割することは難しい.これは文がほとんど全て平仮名で書かれていることにより,形態素として分割する場所の特定が難しくなるからである.本研究では unigram BERT と bigram BERT の 2 種類の BERT による平仮名文の単語分割モデルを作成した.BERT モデルの作成に際し,事前学習用データとして Wikipeda のデータを用い,単語分割のためのファインチューニングのデータとして BCCWJ のコアデータを利用した.さらに,作成した 2 種類の BERT による平仮名文の単語分割における精度と比較するため,Kytea を用いた平仮名文の単語分割モデルを作成した.BCCWJ のコアデータを用い 5 分割交差検証を行ったところ,unigram BERT 単語分割システムでは 97.67% の精度を,bigram BERT 単語分割システムでは 96.44% の精度を得た.}, title = {平仮名BERTによる平仮名文の分割}, year = {2022} }