WEKO3
アイテム
クラスタリングを利用したキーワード抽出アルゴリズムのツイッターデータへの適用例
https://ipsj.ixsq.nii.ac.jp/records/231339
https://ipsj.ixsq.nii.ac.jp/records/231339e5c40e0b-7627-42c6-b47b-9eb7fb3a063e
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2023 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | Symposium(1) | |||||||||
---|---|---|---|---|---|---|---|---|---|---|
公開日 | 2023-12-02 | |||||||||
タイトル | ||||||||||
タイトル | クラスタリングを利用したキーワード抽出アルゴリズムのツイッターデータへの適用例 | |||||||||
タイトル | ||||||||||
言語 | en | |||||||||
タイトル | An Analysis of Twitter Data by Keyword Extraction based on Clustering | |||||||||
言語 | ||||||||||
言語 | jpn | |||||||||
キーワード | ||||||||||
主題Scheme | Other | |||||||||
主題 | クラスタリング; キーワード; マイクロブログ; Twitter; SNS | |||||||||
資源タイプ | ||||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_5794 | |||||||||
資源タイプ | conference paper | |||||||||
著者所属 | ||||||||||
国立情報学研究所 | ||||||||||
著者所属 | ||||||||||
千葉商科大学 | ||||||||||
著者所属(英) | ||||||||||
en | ||||||||||
National Institute of Informatics, Japan | ||||||||||
著者所属(英) | ||||||||||
en | ||||||||||
Chiba University of Commerce | ||||||||||
著者名 |
宇野, 毅明
× 宇野, 毅明
× 橋本, 隆子
|
|||||||||
著者名(英) |
Uno, Takeaki Hashimoto Takako
× Uno, Takeaki Hashimoto Takako
|
|||||||||
論文抄録 | ||||||||||
内容記述タイプ | Other | |||||||||
内容記述 | 本稿では,クラスタリングを用いて,テキストデータ中の部分的なトピックや話題に対応するキーワードを抽出する手法を,特定の話題に対するツイート群のデータに適用し,どのようなキーワードがどのように取り出され,それが特定の話題の性質や,それに反応した人々の振るまいとどのように関係しているかを考察する.一般のキーワード抽出のように,全体的な特徴を捉えたキーワードとは異なり,自明ではないと考えられる単語を効果的に抽出できるため,より深い考察が可能となっている.取り上げたトピックは企業の炎上に関するものと,北海道の地震に関するものであり,ある種対極的な様相が観察された. キーワード :クラスタリング,キーワード,マイクロブログ, Twitter,SNS An Analysis of Twitter Data by Keyword Extraction based on Clustering Uno Takeaki (National Institute of Informatics, Japan) Hashimoto Takako (Chiba University of Commerce) Abstract : In this paper, we apply our keyword extraction algorithm based on clustering to real world tweet data concerning to specified topics. The use of clusters makes extracted keywords having correspondences to sub-topics in the text data, while the keywords extracted by existing methods are related to the general characteristics of the data. This locality of the keywords enables us to understand more deeply the features of the topics, and the reaction and behaviors of the people who touched the topics at the time. We analyzed the topics of framing of a company and big earthquake at Hokkaido, and the results clarify aspects and features of the topics of which two topics express much differences. Keywords : clustering, keyword, microblog, Twitter, SNS 1.まえがき キーワード抽出は, 自然言語処理の中でも中心的な技術である. 文書を特徴づける複数の単語や動詞を得る, あるいは文書のあらましを理解する,という様な目的に用いることができるし, 多くの文書があるときに, その中の文書の内容がどのような分布になっているのか, というようなことを,ざっくりと理解することに使えたりもする. キーワード抽出の代表的な方法として, TF-IDF[1]がある. これは文書 Xの中に含まれる単語AがXの中でどの程度重要であるかを表す指標である.単語 Aの文書Xにおける頻度を,「単語Aが文書Xに出てくる回数」を,「文書 Xの全単語数」で割ったものとする. TF-IDFは,簡単に言えば,「単語 Aの文書Xにおける頻度」を「単語Aの一般の文書での頻度」で割ったものと考えて良い (正しくは,その logである).つまり一般の状態比べて,文書 Xでどれだけ頻度高くAが現れているか, というものである. 文書 Xの中でTF-IDFの値が大きい単語が,文書 Xのキーワードである,と考えるのである. TF-IDFはシンプルな設計ではあるが,そこそこ良いものを見つける力があり, 広く使われている.しかし, Tweetのような「短い文章」の集合に適用することは難しい. Tweet のような短い文章では,たとえ重要な単語とはいえ,一つの文章に2回以上表れることはめずらしく,逆に「雨の日に限って,選挙の日なんだよなあ」のような文章で「日」が重要,ということになってしまう.つまり, TF-IDFをTwitterのようなマイクロブログ分析に直接的に使用することは難しいのである. これは他のソーシャルメディアでも同様である. 本稿では,我々が開発した,クラスタリングを用いた | |||||||||
論文抄録(英) | ||||||||||
内容記述タイプ | Other | |||||||||
内容記述 | In this paper, we apply our keyword extraction algorithm based on clustering to real world tweet data concerning to specified topics. The use of clusters makes extracted keywords having correspondences to sub-topics in the text data, while the keywords extracted by existing methods are related to the general characteristics of the data. This locality of the keywords enables us to understand more deeply the features of the topics, and the reaction and behaviors of the people who touched the topics at the time. We analyzed the topics of framing of a company and big earthquake at Hokkaido, and the results clarify aspects and features of the topics of which two topics express much differences. | |||||||||
書誌情報 |
じんもんこん2023論文集 巻 2023, p. 25-30, 発行日 2023-12-02 |
|||||||||
出版者 | ||||||||||
言語 | ja | |||||||||
出版者 | 情報処理学会 |