WEKO3
アイテム
MIIDAS:情報の適合的選別による文書フィルタリング
https://ipsj.ixsq.nii.ac.jp/records/132474
https://ipsj.ixsq.nii.ac.jp/records/13247491c5a7f0-2452-493c-9463-804c8c53f1e1
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
|
Item type | National Convention(1) | |||||
---|---|---|---|---|---|---|
公開日 | 1997-09-24 | |||||
タイトル | ||||||
タイトル | MIIDAS:情報の適合的選別による文書フィルタリング | |||||
タイトル | ||||||
言語 | en | |||||
タイトル | MIIDAS: Document filtering with word co-occurrence probability | |||||
言語 | ||||||
言語 | jpn | |||||
資源タイプ | ||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_5794 | |||||
資源タイプ | conference paper | |||||
著者所属 | ||||||
NEC C&Cメディア研究所 | ||||||
著者所属 | ||||||
NEC C&Cメディア研究所 | ||||||
著者所属 | ||||||
NEC C&Cメディア研究所 | ||||||
著者所属(英) | ||||||
en | ||||||
NEC C&C Media Research Laboratory | ||||||
著者所属(英) | ||||||
en | ||||||
NEC C&C Media Research Laboratory | ||||||
著者所属(英) | ||||||
en | ||||||
NEC C&C Media Research Laboratory | ||||||
論文抄録 | ||||||
内容記述タイプ | Other | |||||
内容記述 | 我々は, 情報集配信サービスMIIDASにより, ユーザーに必要な様々な情報をフィルタリング, 分類・検索, 活用・発信するためのプラットフォームを提供することを目指している。本稿では, このうち, 我々が取り組んでいるテキスト情報に対するフィルタリングシステムの研究開発に関する報告を行なう。現在, 尤度の推定にベイズの定理を用いた単語ベースモデルによるフィルタリングシステムを実現し, 新聞記事情報を対象としたフィルタリングサービスを運用している。単語ベースモデルにおいて, 文書中に出現する全単語に対して単語空間を設定すると, 大量の文書情報を扱う場合に単語数の増加による単語空間の次元数の爆発という困難が生じる。このため, 単語空間の設定のための重要語の選別が不可欠となる。単語空間中で, 自立語以外の単語は単語自身が独立して意味を持たないため, 単語ベースモデルのための単語空間として適切ではない。さらに単語ベースモデルにおける単語空間の設定には, 以下の二つの問題がある。(1) 一般的な語義を持つ単語や語義の曖昧性を持つ単語は, 文脈に依存して語義や用法が変化する。単語ベース, モデルでは, これらの単語の文脈上の語義や用法の違いを区別することができないため, 語義によって異なる本来の統計分布とは異なる扱いとなる。これらの単語の単語空間を占める割合が高くなると, 尤度の推定におけるこれらの単語からの寄与により, 精度の低下が引き起こされる。(2) 日本語の文書に関しては形態素解析の語切り誤りにより, カテゴリを特定する寄与が大きい固有名詞や複合語などが分割されてしまうという問題がある。本稿では, 上記の二つの問題に対して(1)文書のカテゴリを特定する寄与の大きい単語のみを選別する方法, および(2)固有名詞の追加による分割された固有名詞の一単語としての取扱い, の方法を用いることにより, 上記の問題を解決したのでその方法と可能性について示す。 | |||||
書誌レコードID | ||||||
収録物識別子タイプ | NCID | |||||
収録物識別子 | AN00349328 | |||||
書誌情報 |
全国大会講演論文集 巻 第55回, 号 データベースとメディア, p. 242-243, 発行日 1997-09-24 |
|||||
出版者 | ||||||
言語 | ja | |||||
出版者 | 情報処理学会 |