@inproceedings{oai:ipsj.ixsq.nii.ac.jp:00223071, author = {石丸, 貴之 and 三村, 守 and Takayuki, Ishimaru and Mamoru, Mimura}, book = {コンピュータセキュリティシンポジウム2022論文集}, month = {Oct}, note = {社会問題となっているフェイクニュースに対して,機械学習を用いた検出方法が提案されている.しかしながら,これらの手法では単一のデータセットを用いて精度を評価していることが多く,様々な分野に対応できる汎用性のあるモデルの提案は少ない.本研究では,特徴の異なる 3 つのデータセットを用いて,フェイクニュース検出器の汎用性を検証するとともに,データセットに共通する特徴に着目した.データセットは,ラベル別にリアルニュース 27442 件,フェイクニュース 28359 件で構成した.特徴の抽出は,BERT (Bidirectional Encoder Representations from Transformers) の Multi-Head-Attention で重みを数値化し,重みの大きい単語に注目して実施した.各データセットの上位の単語を相互に比較すると,全体の 13% にあたる 14 語のみが共通していた.さらに,汎用性を評価するために,あるデータセットで学習済みのモデルを用い,他のデータセットを分類した.その結果,Accuracy は 99% から 50% 以下に低下した.これらの結果から,フェイクニュースに共通する特徴は少なく,分類モデルの汎用性については改善の余地があることが判明した., Several methods for detecting fake news using machine learning have been proposed. Previous studies have only focused on a limited dataset, and few researchers have proposed versatile models that can be applied to various fields. In this study, we focus on common features of multiple datasets. The three datasets consisted of 27442 real news and 28359 fake news. Feature extraction was conducted by focusing on frequent words based on attention weight in a BERT (Bidirectional Encoder Representations from Transformers) model. Comparing the top words in each dataset to each other, only 14 words (13 percent) of the total are common. To evaluate the generality, each dataset was classified using models trained on the other dataset. As a result, accuracy is reduced to less half of its original one. A few common features were revealed in multiple datasets. Therefore, there is room for improvement regarding the generality of the classification model.}, pages = {97--104}, publisher = {情報処理学会}, title = {Multi-Head-Attentionによるフェイクニュースに共通する特徴の抽出}, year = {2022} }