WEKO3
アイテム
文書情報統合のためのテキスト表現モデルの提案と主題グラフを用いた実現
https://ipsj.ixsq.nii.ac.jp/records/17525
https://ipsj.ixsq.nii.ac.jp/records/17525fb522428-d93f-42e2-9b3b-e40ed99ea4a6
| 名前 / ファイル | ライセンス | アクション |
|---|---|---|
|
|
Copyright (c) 2005 by the Information Processing Society of Japan
|
|
| オープンアクセス | ||
| Item type | Trans(1) | |||||||
|---|---|---|---|---|---|---|---|---|
| 公開日 | 2005-03-15 | |||||||
| タイトル | ||||||||
| タイトル | 文書情報統合のためのテキスト表現モデルの提案と主題グラフを用いた実現 | |||||||
| タイトル | ||||||||
| 言語 | en | |||||||
| タイトル | Text Representation Model for Integrating Document Contents and Its Implementation Using Subject Graphs | |||||||
| 言語 | ||||||||
| 言語 | jpn | |||||||
| キーワード | ||||||||
| 主題Scheme | Other | |||||||
| 主題 | 研究論文 | |||||||
| 資源タイプ | ||||||||
| 資源タイプ識別子 | http://purl.org/coar/resource_type/c_6501 | |||||||
| 資源タイプ | journal article | |||||||
| 著者所属 | ||||||||
| 日本電信電話株式会社NTT サイバーソリューション研究所 | ||||||||
| 著者所属 | ||||||||
| 日本電信電話株式会社NTT サイバーソリューション研究所 | ||||||||
| 著者所属 | ||||||||
| 日本電信電話株式会社NTT サイバーソリューション研究所 | ||||||||
| 著者所属 | ||||||||
| 日本電信電話株式会社NTT サイバーソリューション研究所 | ||||||||
| 著者所属(英) | ||||||||
| en | ||||||||
| NTT Cyber Solutions Laboratories NTT Corporation | ||||||||
| 著者所属(英) | ||||||||
| en | ||||||||
| NTT Cyber Solutions Laboratories NTT Corporation | ||||||||
| 著者所属(英) | ||||||||
| en | ||||||||
| NTT Cyber Solutions Laboratories NTT Corporation | ||||||||
| 著者所属(英) | ||||||||
| en | ||||||||
| NTT Cyber Solutions Laboratories NTT Corporation | ||||||||
| 著者名 |
富田, 準二
石井, 恵
中渡瀬, 秀一
片岡, 良治
× 富田, 準二 石井, 恵 中渡瀬, 秀一 片岡, 良治
|
|||||||
| 著者名(英) |
Junji, Tomita
Megumi, Ishii
Hidekazu, Nakawatase
Ryoji, Kataoka
× Junji, Tomita Megumi, Ishii Hidekazu, Nakawatase Ryoji, Kataoka
|
|||||||
| 論文抄録 | ||||||||
| 内容記述タイプ | Other | |||||||
| 内容記述 | 複数の文書の内容を統合することによって,単一の文書からは得られないような重要な情報を取得することができる.このような文書情報の統合を行うためには,検索,分類等の様々なテキスト操作を柔軟に組み合わせて実行する必要がある.本稿では,リレーショナルデータモデルとのアナロジを用いたテキスト表現モデルを提案する.テキスト表現モデルは,文書を形式的な表現(テキスト表現)で表し,これらテキスト表現のリストに対する演算からなるテキスト操作の体系(テキスト表現代数)を提供する.テキスト表現に,単語の重要度をノードの重み,単語間の関連度をリンクの重みとした主題グラフを採用し,主題グラフに基づくテキスト用のデータベースおよび文書情報統合アプリケーションを構築する.その動作例を用いて,主題グラフに対する演算の組合せによって,有用な情報が得られることを示すとともに,テキスト表現モデルのカバー範囲を明らかにする.さらに,主題グラフが,一般に広く利用されているタームベクトルよりもテキスト表現として適していることを,演算のタスク適用性および分析結果の可読性の観点から示す.また,計算量に関する考察から主題グラフが大規模文書集合にも適用可能であることを示す. | |||||||
| 論文抄録(英) | ||||||||
| 内容記述タイプ | Other | |||||||
| 内容記述 | Integrating the contents of several documents reveals important facts, that can not be acquired from a single document. The integration requires heterogeneous combinations of text handling operations such as text search and clustering. Drawing an analogy with the relational data model, we propose a text representation model that represents documents in a formal manner, i.e. text representation, and that provides a text representation algebra that consists of procedures for handling the lists of the representations. We use subject graphs as the representation; node weight is used to represent the significance of each term, and link weight is used to represent that of each term-term association. This paper introduces a graphbased text database based on the model and an application for integrating document contents. Examples show that the proposed technique can discover important facts. Furthermore, evaluations show that subject graphs are more suitable for representation than term vectors with regard to the ap licability of procedures and readability. We also show the limitations of the model and that the computational complexity of subject graphs is reasonable. | |||||||
| 書誌レコードID | ||||||||
| 収録物識別子タイプ | NCID | |||||||
| 収録物識別子 | AA11464847 | |||||||
| 書誌情報 |
情報処理学会論文誌データベース(TOD) 巻 46, 号 SIG5(TOD25), p. 70-83, 発行日 2005-03-15 |
|||||||
| ISSN | ||||||||
| 収録物識別子タイプ | ISSN | |||||||
| 収録物識別子 | 1882-7799 | |||||||
| 出版者 | ||||||||
| 言語 | ja | |||||||
| 出版者 | 情報処理学会 | |||||||