WEKO3
アイテム
イレイズム検出のためのモデル学習手法
https://ipsj.ixsq.nii.ac.jp/records/235114
https://ipsj.ixsq.nii.ac.jp/records/2351141510bc61-bf70-410b-b4d3-a865d224f7d8
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]()
2026年6月21日からダウンロード可能です。
|
Copyright (c) 2024 by the Information Processing Society of Japan
|
|
非会員:¥660, IPSJ:学会員:¥330, NL:会員:¥0, DLIB:会員:¥0 |
Item type | SIG Technical Reports(1) | |||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|
公開日 | 2024-06-21 | |||||||||||
タイトル | ||||||||||||
タイトル | イレイズム検出のためのモデル学習手法 | |||||||||||
タイトル | ||||||||||||
言語 | en | |||||||||||
タイトル | A Model Training Method for Detecting Illeism | |||||||||||
言語 | ||||||||||||
言語 | jpn | |||||||||||
キーワード | ||||||||||||
主題Scheme | Other | |||||||||||
主題 | 分析・応用 | |||||||||||
資源タイプ | ||||||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||||||
資源タイプ | technical report | |||||||||||
著者所属 | ||||||||||||
東京大学 | ||||||||||||
著者所属 | ||||||||||||
東京大学 | ||||||||||||
著者所属 | ||||||||||||
東京大学 | ||||||||||||
著者所属(英) | ||||||||||||
en | ||||||||||||
The University of Tokyo | ||||||||||||
著者所属(英) | ||||||||||||
en | ||||||||||||
The University of Tokyo | ||||||||||||
著者所属(英) | ||||||||||||
en | ||||||||||||
The University of Tokyo | ||||||||||||
著者名 |
多田, 龍之進
× 多田, 龍之進
× 石井, 太河
× 宮尾, 祐介
|
|||||||||||
論文抄録 | ||||||||||||
内容記述タイプ | Other | |||||||||||
内容記述 | 本研究では,イレイズム (名前での自己言及) という言語現象を検出するタスクを定義し,そのタスクに対するモデルの学習方法を提案する.イレイズムは,話者が自身の名前やあだ名を用いて自己言及する言語現象である.イレイズムは,それが起こる状況や相手との関係性などに深く関わっているため,文章理解の上では他の人称代名詞と同様に重要である.しかしながら,人称代名詞を用いた自己言及とは異なり,イレイズムは自己言及に使用される名詞が話者によって異なるという特徴があるため,ルールベースの検出は難しい.また,イレイズムは言語現象として頻度が少ないことが知られており,実データを集めてモデルの学習用のデータセットを構築するのは困難である.そこで,本研究では既存の対話コーパスを用いて,人工データセットを構築し,モデルの学習を行う.具体的には,イレイズム検出をある名詞が話者本人を指すかどうかの判定に帰着する.既存の対話コーパスに現れる一人称と人名をマスクすることでデータセットを構築し,モデルには文脈のみからマスクした部分が一人称であったかどうかを学習させる.今回の学習方法を適用したモデルと,GPT-3.5 や GPT-4 といった大規模言語モデルの検出性能を比較する.またモデルに与える文脈の量による性能の変化を調査する.結果として,どの文脈の量でも検出性能に関しては今回の学習手法を適用したモデルが最も高く,GPT-4 が最も低いことが示された. | |||||||||||
論文抄録(英) | ||||||||||||
内容記述タイプ | Other | |||||||||||
内容記述 | In this study, we define a task to detect the linguistic phenomenon of illeism (self-reference by name), and propose a method to train models for the task. Illeism is a linguistic phenomenon in which a speaker self-references by using his/her own name or nickname. Illeism is as important as other personal pronouns in understanding sentences because it is closely related to the situation in which they occur and the relationship between the speaker and the other party. However, unlike self-reference using personal pronouns, illeism is difficult to detect on a rule-based because the nouns used in illeism vary from speaker to speaker. In addition, it is known that illeism is infrequent as a linguistic phenomenon, making it difficult to collect real data to construct a dataset for training a model. Therefore, in this study, we construct an artificial dataset using an existing dialogue corpus and train a model. Specifically, we attribute the illeism detection to the determination of whether a noun refers to the speaker himself or herself. The dataset is constructed by masking first person and person names that appear in the existing dialogue corpus, and the model learns whether the masked parts were originally in the first person or not based on context only. We compare the detection performance of the model with this training method with that of large language models such as GPT-3.5 and GPT-4. We also examine how the performance varies with the amount of context given to the models. As a result, it is found that the model with the present learning method has the best detection performance for any amount of contexts, while GPT-4 has the lowest detection performance. | |||||||||||
書誌レコードID | ||||||||||||
収録物識別子タイプ | NCID | |||||||||||
収録物識別子 | AN10115061 | |||||||||||
書誌情報 |
研究報告自然言語処理(NL) 巻 2024-NL-260, 号 23, p. 1-9, 発行日 2024-06-21 |
|||||||||||
ISSN | ||||||||||||
収録物識別子タイプ | ISSN | |||||||||||
収録物識別子 | 2188-8779 | |||||||||||
Notice | ||||||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||||||
出版者 | ||||||||||||
言語 | ja | |||||||||||
出版者 | 情報処理学会 |