Item type |
Journal(1) |
公開日 |
2021-03-15 |
タイトル |
|
|
タイトル |
不均衡分類問題としての小説の段落境界推定 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Automatic Paragraph Segmentation of Novels as Imbalanced Classification |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
[特集:若手研究者] 小説の創作支援,段落分け,不均衡分類問題,BERT,コスト考慮型学習 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_6501 |
|
資源タイプ |
journal article |
ID登録 |
|
|
ID登録 |
10.20729/00210253 |
|
ID登録タイプ |
JaLC |
著者所属 |
|
|
|
大阪府立大学大学院工学研究科 |
著者所属 |
|
|
|
大阪府立大学大学院工学研究科 |
著者所属 |
|
|
|
大阪府立大学大学院工学研究科 |
著者所属(英) |
|
|
|
en |
|
|
Graduate School of Engineering, Osaka Prefecture Uniersity |
著者所属(英) |
|
|
|
en |
|
|
Graduate School of Engineering, Osaka Prefecture Uniersity |
著者所属(英) |
|
|
|
en |
|
|
Graduate School of Engineering, Osaka Prefecture Uniersity |
著者名 |
飯倉, 陸
岡田, 真
森, 直樹
|
著者名(英) |
Riku, Iikura
Makoto, Okada
Naoki, Mori
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
小説の創作支援に関する研究は多岐にわたる.本研究では,読み手が文章の内容理解を深めるための重要な文章技法の1つである段落分けに焦点を当てた.この段落分けは,対象とする文どうしの間における,段落としての境界の存在の有無に関する分類問題としてとらえることが可能である.しかしその場合,一般に段落の数は文の数と比較して少ないため,データの不均衡性がボトルネックとなる.我々はこの問題に対処するため,BERTに不均衡データの分類問題に対して頑健な損失関数を導入した.そして本研究のために新たに作成したデータセットを対象とした実験を通して,Focal LossおよびDice Lossを導入した場合に,従来のBERTと比較して有意に高い精度が得られることを実験的に確認した.また,モデルに対する入力文の範囲を拡張することが段落境界を推定するために有効であることを明らかにした. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
There are various studies on creation support for writing novels. In this study, we focus on paragraph segmentation, which is one of the important writing techniques for readers to deepen their understanding of the texts. The paragraph segmentation can be considered as a classification problem regarding the presence or absence of a boundary as a paragraph between the target sentences. However, in that case, the data imbalance becomes a bottleneck because the number of paragraphs is generally smaller than the number of sentences. In order to deal with this problem, we have introduced several loss functions which is robust for the imbalanced classification in BERT@. We confirmed experimentally that significantly higher accuracy is obtained when using the model with Focal Loss and Dice Loss compared to the conventional BERT through experiments on the dataset newly created for this study. In addition, it was clarified that expanding the range of input sentences to the model is effective for estimating paragraph boundaries. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN00116647 |
書誌情報 |
情報処理学会論文誌
巻 62,
号 3,
p. 891-902,
発行日 2021-03-15
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
1882-7764 |