| Item type |
SIG Technical Reports(1) |
| 公開日 |
2024-03-03 |
| タイトル |
|
|
タイトル |
複数の訓練データを用いた直喩文判別 |
| タイトル |
|
|
言語 |
en |
|
タイトル |
Simile identification using several types of training data |
| 言語 |
|
|
言語 |
jpn |
| キーワード |
|
|
主題Scheme |
Other |
|
主題 |
言語モデル |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
| 著者所属 |
|
|
|
九州工業大学大学院情報創成工学専攻 |
| 著者所属 |
|
|
|
九州工業大学 大学院情報工学研究院知能情報工学研究系 |
| 著者所属(英) |
|
|
|
en |
|
|
Kyushu Institute of Technology |
| 著者所属(英) |
|
|
|
en |
|
|
Department of Artificial Intelligence, Kyushu Institute of Technology |
| 著者名 |
自見, 仁太朗
嶋田, 和孝
|
| 著者名(英) |
Jintaro, Jimi
Kazutaka, Shimada
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
比喩の一種である直喩は「ような」などの定型語 (喩詞) によって比喩の対象を明示する表現である.しかし,喩詞として用いられる「ような」という語は,例示や婉曲の意味でも使用されるため,使い方によって文意が大きく異なる.このような文を判別することは文章理解に於いて重要である.一般に,比喩判別を二値分類問題として機械学習で解くことが考えられる.しかし,機械学習モデルを学習させるには大量のラベル付きデータ(直喩 or 非直喩)が必要となる.このようなデータセットを新たに構築するには大きなコストがかかる.そこで,本研究では少量のラベル付きデータに加えて,疑似ラベリングデータ,他言語データを用いて学習を行い,これらのデータセット及びその組み合わせの有効性を確認した. |
| 論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
Simile is a kind of figurative language. It expresses the target of the figurative language by using comparators such as “like”. For understanding a sentence, it is important to distinguish whether the sentence is a simile or a literal. In this paper, We use several types dataset for simile identification task. The several datasets are small human annotated datasets, pseudo-labeling dataset, and other language datasets. We show the validity of the combination of several data in this task. |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10115061 |
| 書誌情報 |
研究報告自然言語処理(NL)
巻 2024-NL-259,
号 24,
p. 1-6,
発行日 2024-03-03
|
| ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8779 |
| Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |