@techreport{oai:ipsj.ixsq.nii.ac.jp:00043121, author = {川崎, 洋治 and 野村, 直之 and 中川, 尚 and Yoji, Kawasaki and Naoyuki, Nomura and Takashi, Nakagawa}, issue = {37(2002-DD-038)}, month = {Mar}, note = {文書はその本文内部に、自身に対する書誌データ、すなわちメタデータを含んでいることが多い。本稿では、プレーンテキストやHTML文書の内容記述部分から作者や見出し階層のようなメタデータを自動的に抽出する技術を紹介する。次に、抽出したメタデータを格納するための枠組みをRDF Schemaによって定義することで、メタデータを流通させる仕組みを提案する。最後に、文書からのメタデータ自動抽出、およびSemantic Web標準に準拠したその構造表現化による情報流通上の効果について論じる。, Many documents have their bibliographic information in their body texts, such as creator and chapter-section hierarchy. We have developed an automatic method of extracting this kind of information which is intrinsically embedded in plain-text or HTML documents. Then, the extracted document metadata is restructured into our "RDF Schema"-based representation, which is to be useful in many applications for document distribution and information sharing.}, title = {文書構造情報の抽出とメタデータ化}, year = {2003} }