WEKO3
アイテム
平仮名BERTによる平仮名文の分割
https://ipsj.ixsq.nii.ac.jp/records/220231
https://ipsj.ixsq.nii.ac.jp/records/220231ceb3605b-79a2-4184-a5bd-b251f535bb9f
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2022 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|
公開日 | 2022-09-22 | |||||||||||
タイトル | ||||||||||||
タイトル | 平仮名BERTによる平仮名文の分割 | |||||||||||
言語 | ||||||||||||
言語 | jpn | |||||||||||
キーワード | ||||||||||||
主題Scheme | Other | |||||||||||
主題 | 解析 | |||||||||||
資源タイプ | ||||||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||||||
資源タイプ | technical report | |||||||||||
著者所属 | ||||||||||||
茨城大学大学院理工学研究科情報工学専攻 | ||||||||||||
著者所属 | ||||||||||||
東京農業工業大学大学院工学研究院先端情報科学部門 | ||||||||||||
著者所属 | ||||||||||||
茨城大学大学院理工学研究科情報工学領域 | ||||||||||||
著者所属(英) | ||||||||||||
en | ||||||||||||
Major in Computer and Information Sciences, Graduate School of Science and Engineering, Ibaraki University | ||||||||||||
著者所属(英) | ||||||||||||
en | ||||||||||||
Institute of Engineering, Division of Advanced Information Technology & Computer Science, Tokyo University of Agriculture and Technology | ||||||||||||
著者所属(英) | ||||||||||||
en | ||||||||||||
Graduate School of Science and Engineering, Department of Computer and Information Sciences, Ibaraki University | ||||||||||||
著者名 |
井筒, 順
× 井筒, 順
× 古宮, 嘉那子
× 新納, 浩幸
|
|||||||||||
論文抄録 | ||||||||||||
内容記述タイプ | Other | |||||||||||
内容記述 | 日本語を形態素に解析するために MeCab や Chasen 等の形態素解析システムが存在している.現在存在している日本語の形態素解析システムの精度は非常に高いが,これらのシステムは漢字仮名混じりの文を対象にしているため,平仮名で書かれた文を形態素に分割することは難しい.これは文がほとんど全て平仮名で書かれていることにより,形態素として分割する場所の特定が難しくなるからである.本研究では unigram BERT と bigram BERT の 2 種類の BERT による平仮名文の単語分割モデルを作成した.BERT モデルの作成に際し,事前学習用データとして Wikipeda のデータを用い,単語分割のためのファインチューニングのデータとして BCCWJ のコアデータを利用した.さらに,作成した 2 種類の BERT による平仮名文の単語分割における精度と比較するため,Kytea を用いた平仮名文の単語分割モデルを作成した.BCCWJ のコアデータを用い 5 分割交差検証を行ったところ,unigram BERT 単語分割システムでは 97.67% の精度を,bigram BERT 単語分割システムでは 96.44% の精度を得た. | |||||||||||
書誌レコードID | ||||||||||||
収録物識別子タイプ | NCID | |||||||||||
収録物識別子 | AN10115061 | |||||||||||
書誌情報 |
研究報告自然言語処理(NL) 巻 2022-NL-253, 号 1, p. 1-7, 発行日 2022-09-22 |
|||||||||||
ISSN | ||||||||||||
収録物識別子タイプ | ISSN | |||||||||||
収録物識別子 | 2188-8779 | |||||||||||
Notice | ||||||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||||||
出版者 | ||||||||||||
言語 | ja | |||||||||||
出版者 | 情報処理学会 |