WEKO3
アイテム
表層・語彙的特徴量に基づくブログの面白さ分析
https://ipsj.ixsq.nii.ac.jp/records/56660
https://ipsj.ixsq.nii.ac.jp/records/56660aae23906-333e-469d-9676-ccddf8f799db
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2008 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2008-05-15 | |||||||
タイトル | ||||||||
タイトル | 表層・語彙的特徴量に基づくブログの面白さ分析 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Analyzing Interest in Blog Articles based on Surface and in Lexical Feature | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
京都大学大学院情報学研究科 | ||||||||
著者所属 | ||||||||
京都大学大学院情報学研究科 | ||||||||
著者所属 | ||||||||
京都大学大学院情報学研究科 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Information, Kyoto Unviersity | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Information, Kyoto Unviersity | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Information, Kyoto Unviersity | ||||||||
著者名 |
萩行, 正嗣
× 萩行, 正嗣
|
|||||||
著者名(英) |
Masatsugu, Hangyo
× Masatsugu, Hangyo
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 近年、インターネット環境の普及とともに数多くの人がブログを通じて情報を発信するようになっている。それに伴い、大量に存在するブログから面白いものを探し出すことが困難になってきている。本研究では表層.語彙的特徴量に基づき、ブログの面白さを分析する手法を提案する。まず、ブログの記事から文字長などの表層的特徴量や評価表現などの語彙的特徴量といった様々な特徴量を抽出する。そして、これらを特徴量として与えて SVR を用いた機械学習を行なうことで、ブログの面白さを推定する。独自に設置したプログを用いて収集した 249 件のプログ記事とそれを採点したものを用いて実験を行なったところ、ベースラインを上回る精度を達成することができた。また、面白さの個人差の問題についてはドメインアダプテーションを用いることで対処した。最後に、学習されたモデルからプログの面白さの要因について考察を行なった。 | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | Recently, with the prevalence of the Internet environment, a number of people transmit information through a blog. It is getting harder to search out the interesting one among a large amount of existing clog's. This paper describes a method for analyzing the interest of a blog based on automatically extracted surface and lexical features. From a blog text, surface features such as the number of characters and lexical features such as modalities and positive/negative expressions are extracted. Then, our system outputs an interest rate of the blog by a machine leaning method. We collected 249 blog articles, which are assigned to manual evaluations, and then experimented the proposed method on these articles. The experimental result showed that our method outperformed the baseline system. To deal with the difference among individuals, we adopt a domain adaptation technique, which regards an individual as a domain. Finally, we consider the elements of interest based on the learned model. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10442647 | |||||||
書誌情報 |
情報処理学会研究報告音声言語情報処理(SLP) 巻 2008, 号 46(2008-SLP-071), p. 45-52, 発行日 2008-05-15 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |