WEKO3
アイテム
共起情報を利用した新聞記事の自動分類結果の分析・評価
https://ipsj.ixsq.nii.ac.jp/records/132459
https://ipsj.ixsq.nii.ac.jp/records/132459c0038144-1840-4069-b988-737ad4e52f24
| 名前 / ファイル | ライセンス | アクション |
|---|---|---|
|
|
|
| Item type | National Convention(1) | |||||
|---|---|---|---|---|---|---|
| 公開日 | 1997-09-24 | |||||
| タイトル | ||||||
| タイトル | 共起情報を利用した新聞記事の自動分類結果の分析・評価 | |||||
| タイトル | ||||||
| 言語 | en | |||||
| タイトル | Analysis and Evaluation of the Automatic Articles Classification Using Lexical Co-occurrences | |||||
| 言語 | ||||||
| 言語 | jpn | |||||
| 資源タイプ | ||||||
| 資源タイプ識別子 | http://purl.org/coar/resource_type/c_5794 | |||||
| 資源タイプ | conference paper | |||||
| 著者所属 | ||||||
| 三菱電機株式会社情報技術総合研究所音声・言語インタフェース技術部 | ||||||
| 著者所属 | ||||||
| 三菱電機株式会社情報技術総合研究所音声・言語インタフェース技術部 | ||||||
| 著者所属 | ||||||
| 三菱電機株式会社情報技術総合研究所音声・言語インタフェース技術部 | ||||||
| 著者所属 | ||||||
| 三菱電機株式会社情報技術総合研究所音声・言語インタフェース技術部 | ||||||
| 著者所属(英) | ||||||
| en | ||||||
| Human Media Technology Dept., Information Technology R&D Center, Mitsubishi Electric Corporation | ||||||
| 著者所属(英) | ||||||
| en | ||||||
| Human Media Technology Dept., Information Technology R&D Center, Mitsubishi Electric Corporation | ||||||
| 著者所属(英) | ||||||
| en | ||||||
| Human Media Technology Dept., Information Technology R&D Center, Mitsubishi Electric Corporation | ||||||
| 著者所属(英) | ||||||
| en | ||||||
| Human Media Technology Dept., Information Technology R&D Center, Mitsubishi Electric Corporation | ||||||
| 論文抄録 | ||||||
| 内容記述タイプ | Other | |||||
| 内容記述 | 近年大量のテキスト情報がインターネットなどを通じてアクセス可能となるにつれて, 蓄積された文書の分類整理を目的とする文書の自動ファイリングへの要求が高まっている。特に文書内容による自動ファイリングが望まれる。そのための技術としてベクトル空間モデルがある。ベクトル空間モデルによる自動分類は自動学習可能なため, 大量のテキストデータを扱う場合に適している。しかし, ベクトル空間モデルによる分類は単純に単語の出現頻度のみを捕らえて分類先を決定するため分類精度に問題があり, 精度向上のための方式が提案されている。例えば, 河合は単語の意昧属性を用いて分類精度が向上することを示し, 福本はクラスタリングにおいて辞書の語義文を用いた多義解消により精度が向上することを示した。我々は, [1]で指摘されている単語の多義性を共起情報を用いて解消すれば精度向上すると予測した。ただし, 従来の言語学で言われる「多義語」を多義解消するのではなく, 分類が詳細になった場合顕著となる複数分類項目で頻繁に出現する単語に注目した(例えば, 単語「大統領」は<首相<や>大統領選挙>といった複数の分類項目で頻繁に出現する)。この, 複数分類項目で頻繁に出現する単語を「分類多義語」と定義し, 共起情報を用いて「分類多義語」の多義を解消した自動分類を試みた。今回, 本方式で自動分類した結果と, 河合の方式のうち単語のみの情報で自動分類(従来方式と呼ぶ)した結果とを比較し, 本方式が有効な場合を明らかにする。また, 従来方式でも本方式でも解決できない点を分析する。 | |||||
| 書誌レコードID | ||||||
| 収録物識別子タイプ | NCID | |||||
| 収録物識別子 | AN00349328 | |||||
| 書誌情報 |
全国大会講演論文集 巻 第55回, 号 データベースとメディア, p. 212-213, 発行日 1997-09-24 |
|||||
| 出版者 | ||||||
| 言語 | ja | |||||
| 出版者 | 情報処理学会 | |||||