@techreport{oai:ipsj.ixsq.nii.ac.jp:00029409, author = {入口, 浩一 and 岡崎, 史裕 and 松田, 元彦 and 佐藤三久 and Hirokazu, Iriguchi and Fumihiro, Okazaki and Motohiko, Matsuda and Mitsuhisa, Sato}, issue = {22(2000-HPC-085)}, month = {Mar}, note = {文書間の類似度を計算することによって検索を行う類似文書検索は、一般的な全文検索と比べると検索結果を求めるための計算量がかなり多くなる。そのため、大規模なデータに対してこの類似文書検索を適用する場合には、応答時間が問題になってくる。そこで我々は類似文書検索の並列化を行い、5台のデュアルプロセッサPCを利用した並列類似文書検索システムを構築し、応答時間の短縮を目指した。構築にあたっては、高速通信ミドルウェアSORB+JavaPM/Myrinetと類似文書検索ライブラリK-Tech Search IIを用いた。一定の時間間隔で検索を実行する検索クライアントを作成し、応答時間の計測によって本システムの評価を行った。99年の全分野の公開特許データ9.7GB,382 113件において、類似文書検索サーバー1台の類似文書検索システムと比較した場合、約51倍から1321倍の応答時間の向上を得られた。, We are building a parallel similar document search system on Windows NT SMP Cluster using 5 machines. This system's goal is to realize WWW search server on very large size data, and to enable rapid prototyping of the system. We are using high speed middle wear SORB+JavaPM/Myrinet and Sumitomo Metal Industry's a similar document search library K-Tech Search II. This system acheve a good speed up from 51 to 1321 times faster than single processer system for Japanese patent data 1999(9.7GB data size, 382,113 files).}, title = {Windows NT SMPクラスタでのSORB+JavaPM/Myrinetによる並列類似文書検索システムの評価}, year = {2001} }