2024-03-29T19:41:36Zhttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_oaipmhoai:ipsj.ixsq.nii.ac.jp:000430562024-03-29T05:26:34Z01164:03782:03809:03811
表層表現抽出と文書構造解析に基づくXML文書変換システムXML Document Transformation System Based on Information Extraction and Document Structure Analysisjpnhttp://id.nii.ac.jp/1001/00043056/Technical Reporthttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_action_common_download&item_id=43056&item_no=1&attribute_id=1&file_no=1Copyright (c) 2004 by the Information Processing Society of Japan株式会社東芝 研究開発センター 知識メディアラボラトリー株式会社東芝 研究開発センター 知識メディアラボラトリー株式会社東芝 研究開発センター 知識メディアラボラトリー布目光生石谷, 康人住田, 一男本論文では,法令集,官報,約款集,規定集,論文,名刺などの既存文書を応用規格に基づいたXML文書に自動変換する新しい文書変換システムを提案する.本システムは,表層表現抽出処理,構造詳細化処理,整合性獲得処理の3つの機能で構成されている.本システムでは,まず,表層表現抽出により,入力文書から見出し語やキーワードなどの表層表現を自動抽出すると共に,表層表現を手がかりとして文書要素に対する柔軟なタグ付けを行う.次に,文書要素へのタグ付け結果に対して構造詳細化処理を適用することにより,応用規格にしたがった文書構造の複雑化をボトムアップに実施する.そして,整合性獲得処理により,部分構造の並べ替えや不要な文書要素の削除などを行うことにより応用規格に基づいた高品位なXML文書を自動生成する.実験では,実際の業務で利用されている文書を特定の応用規格に基づいたXML文書に変換すると共に,変換精度ならびに変換作業時間を計測して提案システムの有効性を評価した.A new method for document transformation is proposed in this paper as the basis for a document processing system which can convert various existing documents into XML documents. The proposed method consists of information extraction, document structure analysis, and document structure modification. Firstly, keywords or specific portions are detected from an input document by the information extraction process. Secondly, document elements such as words, phrases, sentences, or paragraphs are extracted and tagged according to the information extraction results. Thirdly, the hierarchical structure of document elements is constructed by the document structure analysis process. Finally, this document structure is modified and converted into an XML document in accordance with a specified DTD (Document Type Definition) by the document structure modification process. Experimental results show the method is effective in transforming existing documents to various XML documents.AN10539261情報処理学会研究報告デジタルドキュメント(DD)200497(2004-DD-046)182004-09-242009-06-30