WEKO3
アイテム
blog分類のための半教師有り学習
https://ipsj.ixsq.nii.ac.jp/records/47747
https://ipsj.ixsq.nii.ac.jp/records/4774738da0037-41d4-4585-87bd-a37df846a317
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2008 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2008-01-22 | |||||||
タイトル | ||||||||
タイトル | blog分類のための半教師有り学習 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Semi-supervised Learning for Blog Classification | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
東京工業大学 | ||||||||
著者所属 | ||||||||
東京工業大学 | ||||||||
著者所属 | ||||||||
東京工業大学 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Tokyo Institute of Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Tokyo Institute of Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Tokyo Institute of Technology | ||||||||
著者名 |
池田, 大介
× 池田, 大介
|
|||||||
著者名(英) |
Daisuke, IKEDA
× Daisuke, IKEDA
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | blog著者の属性推定など,教師有り学習を用いblogを分類する研究がなされている.ラベルの無いblogであれば容易に収集が可能であるが,正解ラベル付きのblogは一般に高価である.そこで,本研究では半教師有り学習によるblog分類手法を提案する.blog中の各エントリはスタイルや内容が共通している.本研究ではこれに着目し,各エントリがどのblogに属していたか, という補助問題を解くことにより,blogのスタイルやコンテンツと言った各blogに固有の特徴をモデル化する.この情報を利用することで, 目的の分類問題の精度を向上させることができる.本手法を用いた, いくつかの分類タスクでの実験結果についても報告する. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | Classifying blogs, e.g. identifying bloggers' gender or age, is one of the most interesting problems in blog analysis today. Although it is usually solved by applying supervised learning techniques, it is not always easy to collect labeled blogs enough to train an accurate classifier. To the contrary, we can collect a huge amount of blogs that have no labels. In this paper, therefore, we propose a semi-supervised learning method for blog classification in order to incorporate unlabeled data into supervised learning. We assume that the entries from the same blog have the same characteristics. With this assumption, our method captures the characteristics of each blog, such as writing styles, and uses it to improve classification accuracy. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10115061 | |||||||
書誌情報 |
情報処理学会研究報告自然言語処理(NL) 巻 2008, 号 4(2008-NL-183), p. 59-66, 発行日 2008-01-22 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |