@inproceedings{oai:ipsj.ixsq.nii.ac.jp:00089012, author = {清水, 奨 and 神林, 隆 and 佐藤, 進也 and ポール, フランシス and Susumu, Shimizu and Takashi, Kambayashi and Shin-ya, Sato and Paul, Francis}, book = {マルチメディア通信と分散処理ワークショップ論文集}, issue = {1}, month = {Oct}, note = {WWW上で提供される膨大な情報に対して、検索支援のニーズが高まっている。しかし、現在の検索システムの多くはそれぞれが収集した情報を個別にデータベース化しており、互換性は考えられていない。このため検索システムの数だけ収集ロボットが作られるといった非効率性が指摘されている。複数の検索システムの協調動作を実現するためには、収集した情報が持つさまざまな属性情報(文書タイプ、言語その他)を取り出し、共通に利用できるようにすることが重要である。本稿では、WWWで提供される文書を対象とし、属性情報を抽出するためのフレームワークについて述べる。属性の抽出を文書タイプの識別、言語の識別をはじめとする幾つかの工程にわけ、著者らが開発中の検索システムIngridにおける実装について述べる。また各々の工程における技術的な問題点と解決のためのアプローチを示す。}, pages = {499--505}, publisher = {情報処理学会}, title = {WWW文書における属性情報抽出の試み}, volume = {1996}, year = {1996} }