WEKO3
アイテム
ニューラル言語モデルの学習初期における単語の分節化
https://ipsj.ixsq.nii.ac.jp/records/2004369
https://ipsj.ixsq.nii.ac.jp/records/20043694970c5de-999e-465d-a817-83986ba5afe0
| 名前 / ファイル | ライセンス | アクション |
|---|---|---|
|
2027年9月14日からダウンロード可能です。
|
Copyright (c) 2025 by the Information Processing Society of Japan
|
|
| 非会員:¥660, IPSJ:学会員:¥330, NL:会員:¥0, DLIB:会員:¥0 | ||
| Item type | SIG Technical Reports(1) | |||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 公開日 | 2025-09-14 | |||||||||||||
| タイトル | ||||||||||||||
| 言語 | ja | |||||||||||||
| タイトル | ニューラル言語モデルの学習初期における単語の分節化 | |||||||||||||
| タイトル | ||||||||||||||
| 言語 | en | |||||||||||||
| タイトル | Early Word Segmentation in Neural Language Models | |||||||||||||
| 言語 | ||||||||||||||
| 言語 | jpn | |||||||||||||
| キーワード | ||||||||||||||
| 主題Scheme | Other | |||||||||||||
| 主題 | 医療応用 | |||||||||||||
| 資源タイプ | ||||||||||||||
| 資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||||||||
| 資源タイプ | technical report | |||||||||||||
| 著者所属 | ||||||||||||||
| 奈良先端科学技術大学院大学 | ||||||||||||||
| 著者所属 | ||||||||||||||
| 奈良先端科学技術大学院大学 | ||||||||||||||
| 著者所属 | ||||||||||||||
| 奈良先端科学技術大学院大学 | ||||||||||||||
| 著者所属 | ||||||||||||||
| 奈良先端科学技術大学院大学 | ||||||||||||||
| 著者所属(英) | ||||||||||||||
| en | ||||||||||||||
| Nara Institute of Science and Technology | ||||||||||||||
| 著者所属(英) | ||||||||||||||
| en | ||||||||||||||
| Nara Institute of Science and Technology | ||||||||||||||
| 著者所属(英) | ||||||||||||||
| en | ||||||||||||||
| Nara Institute of Science and Technology | ||||||||||||||
| 著者所属(英) | ||||||||||||||
| en | ||||||||||||||
| Nara Institute of Science and Technology | ||||||||||||||
| 著者名 |
帖佐,宗浩
× 帖佐,宗浩
× 西田,悠人
× 大羽,未悠
× 渡辺,太郎
|
|||||||||||||
| 論文抄録 | ||||||||||||||
| 内容記述タイプ | Other | |||||||||||||
| 内容記述 | 人間の乳幼児はその言語獲得の初期段階において,“I-wanna-do-it”といった表現に対して“I”,“wanna”,“do”,“it”のような要素ごとの区切りを見出すことなく,全体としてひとつの意味を持つ「かたまり」(ホロフレーズ)として認識・使用することが知られている.他方で,近年のニューラル言語モデル(NLM)と人間の言語獲得を対比する一連の研究では,主として事前に設定された語彙を所与とした学習が行われてきている,しかし、語彙を与えた状態では、語の区切りをどのように認識していくかという言語獲得のより基盤的な問いに迫るには限界がある。そこで本研究では,NLMの学習初期においてどのような「かたまり」が認識されているかを検証する.子どもに向けた発話を収集した英語コーパスを用いて,事前の語彙を仮定しない文字レベルNLMを構築し,モデルの分岐エントロピーの局所的な増加部分を分節とみなすという仮定のもとに,NLMにおける単語の分節化の過程を観察した.実験の結果,少なくとも本研究の設定のもとでは,人間の乳幼児が認識・使用するようなホロフレーズは,NLMの学習初期においてひとつの「かたまり」として認識される傾向はほとんど認められなかった. | |||||||||||||
| 書誌レコードID | ||||||||||||||
| 収録物識別子タイプ | NCID | |||||||||||||
| 収録物識別子 | AN10115061 | |||||||||||||
| 書誌情報 |
研究報告自然言語処理(NL) 巻 2025-NL-265, 号 16, p. 1-9, 発行日 2025-09-14 |
|||||||||||||
| ISSN | ||||||||||||||
| 収録物識別子タイプ | ISSN | |||||||||||||
| 収録物識別子 | 2188-8779 | |||||||||||||
| Notice | ||||||||||||||
| SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||||||||
| 出版者 | ||||||||||||||
| 言語 | ja | |||||||||||||
| 出版者 | 情報処理学会 | |||||||||||||