WEKO3
アイテム
人間らしい言語モデルのトークン分割単位はどのようなものか?
https://ipsj.ixsq.nii.ac.jp/records/231279
https://ipsj.ixsq.nii.ac.jp/records/231279ed66fc22-e94a-45f5-a0a8-814b2dcaaa7c
| 名前 / ファイル | ライセンス | アクション |
|---|---|---|
|
|
Copyright (c) 2023 by the Information Processing Society of Japan
|
|
| オープンアクセス | ||
| Item type | SIG Technical Reports(1) | |||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 公開日 | 2023-11-25 | |||||||||||
| タイトル | ||||||||||||
| タイトル | 人間らしい言語モデルのトークン分割単位はどのようなものか? | |||||||||||
| 言語 | ||||||||||||
| 言語 | jpn | |||||||||||
| キーワード | ||||||||||||
| 主題Scheme | Other | |||||||||||
| 主題 | 新たなタスク | |||||||||||
| 資源タイプ | ||||||||||||
| 資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||||||
| 資源タイプ | technical report | |||||||||||
| 著者所属 | ||||||||||||
| 東京大学 | ||||||||||||
| 著者所属 | ||||||||||||
| 東京大学 | ||||||||||||
| 著者所属 | ||||||||||||
| 東京大学 | ||||||||||||
| 著者所属(英) | ||||||||||||
| en | ||||||||||||
| The University of Tokyo | ||||||||||||
| 著者所属(英) | ||||||||||||
| en | ||||||||||||
| The University of Tokyo | ||||||||||||
| 著者所属(英) | ||||||||||||
| en | ||||||||||||
| The University of Tokyo | ||||||||||||
| 著者名 |
三輪, 敬太
× 三輪, 敬太
× 吉田, 遼
× 大関, 洋平
|
|||||||||||
| 論文抄録 | ||||||||||||
| 内容記述タイプ | Other | |||||||||||
| 内容記述 | 言語モデルの人間らしさを検討するため,言語モデルが計算する「サプライザル」がどれだけ人間の文処理の読み時間推定に寄与するかを検討する研究が活発になされている.しかし,これまでの研究では言語モデルが扱う分割単位について深く検討されておらず,これがどのように推定能力に影響するのかはわかっていない.本研究では現代日本語書き言葉均衡コーパス(BCCWJ)を学習データとし,国立国語研究所の長単位と短単位の 2 種類を用いて言語モデルを構築する.BCCWJ-EyeTrack(浅原ほか 2019)を使用して日本語話者の読み時間推定を実施し,長単位が短単位よりも優れた推定能力を持つことを示す.この結果は人間の文処理の研究においてより大きな分割単位を検討する必要があることを示唆する. | |||||||||||
| 書誌レコードID | ||||||||||||
| 収録物識別子タイプ | NCID | |||||||||||
| 収録物識別子 | AN10115061 | |||||||||||
| 書誌情報 |
研究報告自然言語処理(NL) 巻 2023-NL-258, 号 21, p. 1-7, 発行日 2023-11-25 |
|||||||||||
| ISSN | ||||||||||||
| 収録物識別子タイプ | ISSN | |||||||||||
| 収録物識別子 | 2188-8779 | |||||||||||
| Notice | ||||||||||||
| SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||||||
| 出版者 | ||||||||||||
| 言語 | ja | |||||||||||
| 出版者 | 情報処理学会 | |||||||||||