@techreport{oai:ipsj.ixsq.nii.ac.jp:00029563, author = {久保田, 和人 and 仲瀬, 明彦 and 酒井, 浩 and 小柳, 滋 and Kazuto, Kubota and Akihiko, Nakase and Hiroshi, Sakai and Shigeru, Oyanagi}, issue = {66(1999-HPC-077)}, month = {Aug}, note = {数百ギガから数テラバイトクラスのデータに対するデータマイニングを実用時間で行えるシステムの構築を検討している。その知見を得るために、データマイニングの代表的な手法である決定木を並列化して高速化し、百メガバイト程度のベンチマークデータおよび実データを用いて効果を調べた。決定木では、ルートから順にノードが生成されていく。1つのノード内の処理を並列化する手法(ノード内並列)と、複数のノードを並列に処理する手法(ノード間並列)を実装し、C4.5というフリーソフトをSMPマシンをターゲットとして並列化した。プロファイリングで処理のボトルネックを調べ、その部分のスレッドプログラミングを用いて並列化した。ノード内並列は、データの性質によらず8CPUで3倍から6倍程度の高速化が図れた。ノード間並列は、生成される木の偏りに大きく影響を受け、4倍程度高速化されたものから、全く高速化されないものもあった。, We are planning to develop a practical data-mining system to the data of form several 100giga byte to tera byte class. In order to obtain the knowledge for the construction of the system, the decision tree which is the typical technique of a data-mining is parallelized and accelerated. It applied to the data of a 100mega byte class, and was evaluated using benchmark data and real data. On the decision tree, nodes are generated from a root node to leaf nodes. The technique (intra-node parallel) of parallelizing processing in one node and the technique (inter-node parallel) of processing two or more nodes in parallel were implemented. A free software called C4.5 was parallelized for SMP machine. The bottleneck of processing was investigated by profiling and it was parallelized using thread programming. The effect of intra-node parallization was not affected by the characteristic of data, but was able to attain improvement in the speed of 3 to about 6 times by 8 CPUs. Inter-node parallization received influence in the deviation of the tree generated greatly, and there was from what was accelerated about 4 times to what is not accelerated at all.}, title = {決定木の並列化とその評価}, year = {1999} }