@techreport{oai:ipsj.ixsq.nii.ac.jp:00231313, author = {三輪, 敬太 and 吉田, 遼 and 大関, 洋平}, issue = {21}, month = {Nov}, note = {言語モデルの人間らしさを検討するため,言語モデルが計算する「サプライザル」がどれだけ人間の文処理の読み時間推定に寄与するかを検討する研究が活発になされている.しかし,これまでの研究では言語モデルが扱う分割単位について深く検討されておらず,これがどのように推定能力に影響するのかはわかっていない.本研究では現代日本語書き言葉均衡コーパス(BCCWJ)を学習データとし,国立国語研究所の長単位と短単位の 2 種類を用いて言語モデルを構築する.BCCWJ-EyeTrack(浅原ほか 2019)を使用して日本語話者の読み時間推定を実施し,長単位が短単位よりも優れた推定能力を持つことを示す.この結果は人間の文処理の研究においてより大きな分割単位を検討する必要があることを示唆する.}, title = {人間らしい言語モデルのトークン分割単位はどのようなものか?}, year = {2023} }