# DIMMnet-2ネットワークインタフェースコントローラの設計と実装

#### 聡† 苀 **博**†† カ#† <u></u>1Ł 村 澝 田 宮 部 保 昇††† 伊 濹 **徹**† 宮 代 且 隆† Ħ 邊 伯竹 睛 中 拓 天 野 英 條

DIMMnet は Personal Computer (PC)の DIMM スロットに装着するタイプの PC クラスタ 向けインターコネクト用ネットワークインタフェースである.メモリバスは一般的なネットワークイ ンタフェースが装着される PCI バスよりもアクセスレイテンシが小さく,ここにネットワークイン タフェースを装着することで,きわめて低いレイテンシで通信を行うことが可能である.我々はコン トローラ部に FPGA を用いた DIMMnet-2 のコントローラ部の設計,および実装を行い,データ転 送時のレイテンシを測定した.その結果,8 Byte データ送信時のレイテンシが 0.570 µs と,商用の PC クラスタ向けインターコネクトである QsNET II の 43.8%程度に抑えられることが示された.

## Design and Implementation of Network Interface Controller on DIMMnet-2

### Akira Kitamura,<sup>†</sup> Yoshihiro Hamada,<sup>††</sup> Yasuo Miyabe,<sup>†</sup> Tetsu Izawa,<sup>†</sup> Tomotaka Miyasiro,<sup>†</sup> Noboru Tanabe,<sup>†††</sup> Hironori Nakajo<sup>††</sup> and Hideharu Amano<sup>†</sup>

DIMMnet is a network interface for PC cluster interconnect, with uses the DIMM slot on a common PC. Compared with PCI bus used for traditional network interfaces, the access latency of memory bus can be much improved. DIMMnet-2 network interface is the second generation network interface for memory bus which can use DDR-SDRAM slot. In order to cope with high clock frequency of DDR-SDRAM slot, the indirect accessing method is implemented. Although the current board is a prototype using an FPGA, the latency for 8 Byte data transfer is only 0.570  $\mu$ sec that is 43.8% of that in the high performance commercial interconnect QsNET II.

1. はじめに

Personal Computer (PC)の価格対性能比の著し い向上により,これらをノードとして用いたPCクラ スタは実用的な計算資源として企業・大学等で広く用 いられるようになった.PCクラスタの多くはノード PCをMyrinet<sup>1)</sup>やQsNET<sup>2)</sup>,InfiniBand<sup>3)</sup>等の専 用の高速なインターコネクトにより相互接続すること で高い性能を実現する.通常,これらインターコネク トのネットワークインタフェースはPCにおける標準 的な I/O バスである PCI バスに接続されているが, 近年のホスト CPU,メモリ,インターコネクトの性能 の向上にともない,ホスト CPU から PCI バスへのア クセスレイテンシがシステムの性能に大きな影響を与 えつつある.たとえば,QsNET II の場合,8Byteの データをリモートノードに転送する処理を完了するの に約1.3  $\mu$ s 要するが,このうち,ホストのチップセッ トの遅延が約1 $\mu$ s と3/4 以上を占めている<sup>4)</sup>.この ことは,メッセージサイズが小さい場合の通信性能に ホストの遅延が大きく影響することを意味し,同期処 理のようなメッセージサイズの小さい通信を多くとも なう集団通信において性能低下の原因となる.

そこで, 我々はホスト CPU から, PCI バスよりも 低レイテンシでアクセス可能な DIMM スロットに着 目し, ここにネットワークインタフェースを装着する ことでホストの遅延を抑える手法を提唱している.こ の手法に基づき, DIMM スロット装着型のネットワー クインタフェースである DIMMnet の開発を行い, す

<sup>†</sup>慶應義塾大学

Keio University

<sup>††</sup> 東京農工大学

Tokyo University of Agriculture and Technology +++ 株式会社東芝研究開発センター

Corporate Research and Development Center, Toshiba Corporation

でに SDR-SDRAM に接続する DIMMnet-1<sup>5)</sup>の稼働 に成功している.

本論文では, DIMMnet-1の経験に基づき, 新たに 開発した DIMMnet-2<sup>6)</sup>のネットワークインタフェー スコントローラの設計と実装について述べ, 最も基 本的な転送性能の評価によってメモリスロット装着型 ネットワークインタフェースの有効性を示す.

以下,2章で DIMMnet の概要と DIMMnet-2 につ いて述べる.3章でネットワークインタフェースコン トローラ部の設計と実装について,4章ではその評価 について,それぞれ示す.5章で関連研究について触 れ,最後に6章で本論文についてまとめる.

## 2. メモリスロット装着型ネットワークインタ フェース DIMMnet

DIMMnet は DIMM スロットに装着するタイプの, PC クラスタ向けネットワークインタフェースである. PC クラスタ向けインターコネクトのネットワークイ ンタフェースは, 汎用 I/O バスである PCI バスに装着 されるのが一般的である.しかしながら,メモリバス に比べて PCI バスへのホスト CPU からのアクセスレ イテンシは大きい.これは, PC のマザーボードに搭 載されるチップセットの構成が主な原因である.図1 に PentiumIII 以降の Intel 系 CPU を搭載した一般的 な PC, サーバ機のチップセットの構成を示す. 図1に 示されるように,チップセットは CPU やメインメモ リ,これらに次いで高い性能が求められるグラフィッ クスデバイスが接続される Memory Control Hubと, ハードディスクや USB 等の各種 I/O インタフェース が接続される I/O Control Hub から構成される . PCI バスや非グラフィックスデバイス向けの PCI-Express は I/O Control Hub に接続される. サーバ向けチッ プセットでは I/O Control Hub に相当するチップは I/O に応じて別々のチップを用いる例も見られるが,





CPU との間に Memory Control Hub が存在する点 は同様である.そのため,ホスト CPU から PCI パス 上のデバイスに対してアクセスするには2つのチップ を経由することになり,メインメモリに対するアクセ スよりもレイテンシが大きくなる.たとえば,ホスト CPU から PCI バスに装着されたネットワークインタ フェースをポーリングした場合, µs オーダのレイテ ンシを要する.

また,サーバ向けのシステムにはバスクロックが 133 MHz で動作する PCI-X バスが搭載される例が多 く見られるが,現在,汎用 PC において主流となっ ている I/O バスは, いまだバスクロックが 33 MHz の PCI バスである.対して,メモリバスは現在主流の DDR-SDRAM バスで 100~200 MHz のバスクロック であり, 汎用 PC ではメモリバスと PCI バスとの間 で,アクセスレイテンシの差がより大きくなる.さら に,メモリバスのバンド幅は近年のメモリクロックの 著しい向上から, PCI バスに代わる高速 I/O である PCI-Express の x8 の規格に匹敵する性能に達してい るため,ここにネットワークインタフェースを装着し, PC クラスタを構築することで, PCI バスや PCI-X バスに装着される PC クラスタ向けインターコネクト を用いた PC クラスタよりも高性能なシステムを構築 できると予想される.

メモリスロットを用いることの利点は,システムの 構築コストの観点からもあげられる.一般に,高性 能な PC クラスタを構築するには 64 bit/133 MHz の PCI-X バスを搭載したサーバ機を用いるが,このよう なサーバ機はノード単価が汎用 PC に比べて高価であ るため,システム構築のコストが上昇する.一方でメ モリスロットは汎用 PC に標準的に搭載されているこ とから,PCI-X バスを搭載したサーバ機を用いずに安 価な PC をノードとして用いた場合でも高性能な PC クラスタを低コストで構築可能であると考えられる.

DIMMnet はメモリスロットを介してノード間を接 続することにより, PCI-X バスのような高速 I/O を 用いた PC クラスタ向けインターコネクトに比べ,低 コストで高性能なシステムを構築することを目的と する.

#### 2.1 DIMMnet-2

DIMMnet-2 は DIMM スロット装着型ネットワーク インタフェースの 2 世代目として,東京農工大学,およ び新情報処理開発機構によって開発された DIMMnet-1<sup>5)</sup>の経験に基づいて開発が行われている.DIMMnet-2 は既存の PC クラスタ向けインターコネクトよりも 低レイテンシな通信を実現することによって, PC ク ラスタの性能向上を目指す.これは,文献 7) におい て,64 bit/66 MHz の PCI バスと 64 bit/133 MHz の PCI-X バスにそれぞれ InfiniBand のネットワークイ ンタフェースを装着した小規模な PC クラスタ上で NAS Parallel Benchmarks による性能比較が行われ ており,PCI バスと PCI-X バスのバンド幅の差ほど の性能差が見られなかったことから,今後はバンド幅 の向上のみでは PC クラスタのシステム全体の性能向 上は難しく,また,1章で述べたとおり,ホスト PC のチップセットのレイテンシがメッセージサイズの小 さい通信時に大きく影響することから,通信レイテン シの削減が必要であると考えられるためである.

DIMMnet-1 は SDR-SDRAM メモリバスに対応し ており,メモリバスインタフェース部のスイッチの切 替えにより,DIMMnet-1上に搭載されたメモリを直 接 PC からアクセスする構成になっていた.しかし, この構成ではメモリバスのインタフェースの遅延の問 題から高クロック化が難しく,DDR-SDRAM メモリ バスには対応することができないことが判明している. また,DIMMnet-1で採用したネットワークスイッチは 独自設計であったため,量産ができず,高価であった.

DIMMnet-2 では、これらの問題点を解決するため に、PCから DIMMnet-2 ボード上のメモリのアクセ スをメモリバスとのインタフェース内のバッファを介 した間接転送にする.これにより、DDR-SDRAMメ モリバスとの接続を可能にした.

間接転送方式を採用することで,行列へのストラ イドアクセス等,レイテンシの大きくなりやすい複 雑なアクセスをインタフェース上のハードウェアで制 御し,高速化することが可能となる<sup>8)</sup>.これにより, DIMMnet-2 はネットワークを介した並列処理を行わ ない場合でも,アプリケーションの高速化が可能であ るため,高機能なメモリモジュールとしての利用が可 能である.

また,ネットワークスイッチ等のネットワークイン タフェース以外のコンポーネントには標準ネットワー クである InfiniBand を用いることで,専用のスイッ チを用いた場合よりもシステム構築のコストを低く抑 える.

2.2 本研究の目的

本研究では DIMMnet-2 のネットワークインタ フェースコントローラの設計と実装を行い, コント ローラ部に FPGA を搭載した DIMMnet-2 試作基板 (2.2.1 項)を用いた検証,評価等を通してコントロー ラの ASIC 化の足がかりとすることを目的とする.

DIMMnet-2 ではホストから DIMMnet-2 上の SO-



図 2 DIMMnet-2 試作基板の構成図 Fig. 2 Structure of DIMMnet-2 prototype.



図 3 DIMMnet-2 試作基板 Fig. 3 Picture of DIMMnet-2 prototype.

DIMM に対して,コントローラを介した間接アクセ スを行うため,DIMMnet-1 とは大幅に構造が異なる. したがって,ネットワークインタフェースコントロー ラを一から設計し直す必要がある.

また,メモリスロット装着型ネットワークインタ フェースを用いて安価に PC クラスタを構築するため には,ネットワークインタフェースの製造コストを下 げるためにネットワークインタフェースコントローラ を ASIC として実装する必要がある.

そのため, DIMMnet-2 試作基板上の FPGA に, 設計したコントローラを実装し,機能検証,論理検証, および性能評価を行う.

2.2.1 DIMMnet-2 試作基板

DIMMnet-2 試作基板は, DIMMnet-2 ネットワー クインタフェースコントローラの ASIC 化のための 機能検証,論理検証を目的とした,DIMMnet-2のプ ロトタイプである.コントローラ部に FPGA を搭載 しており,これにネットワークインタフェースコント ローラの実装を行う.FPGA を用いるため,設計や 実装の変更が容易であり,様々な検証の結果を反映さ せていくことが可能である.FPGA 上には高速イン ターコネクトの IP が搭載されており,InfiniBand へ の接続が容易に実現可能である.

図2に試作基板の構成を,図3に試作基板の概観 をそれぞれ示す.

本試作基板では, FPGA に Xilinx 社の Virtex-II Pro XC2VP70-7FF1517C を用いている.このチップ は InfiniBand, Fibre Channel や Gigabit Ethernet に対応した高速シリアル I/O インタフェースである RocketIO トランシーバを搭載しており,これを利用 して InfiniBand スイッチ(4X:10 Gbps)に接続する.

DIMMnet-2 試作基板はノート PC 用の汎用メモリ である 200 pin DDR SO-DIMM を 2 枚搭載する.こ れは通信時のバッファのほか,ホスト PC のデータ記憶 領域として使用する.現在,256 MByte の SO-DIMM を 2 枚搭載しているが,将来的には SO-DIMM の 1 枚あたりの容量や枚数を増加させることによって,ホ スト PC のメモリスロット 1 本あたりに搭載可能な最 大メモリ容量より多くの記憶領域を設け,大規模な分 散共有メモリシステムを構築することを視野に入れて いる.

なお,試作基板は FPGA を用いているため,高い 動作周波数での稼働が困難である.現在, FPGA を 100 MHz で動作させることで PC1600 の規格での動 作に対応している.

## 3. DIMMnet-2 ネットワークインタフェー スコントローラ

本章では,設計を行った DIMMnet-2 のネットワー クインタフェースコントローラについて述べる.

3.1 ホスト PC からの間接アクセス

DIMMnet-2 のネットワークインタフェースコント ローラの特徴は,インタフェース上の SO-DIMM に対 する間接アクセスである.メモリバスインタフェース に密接して設けたコントローラ内部の複数のバッファ やレジスタにアクセスすることで,コントローラに対 してコマンドの発行やデータの読み書きを行い,間接 的に SO-DIMM にアクセスする.

間接アクセス手法では,ホストから,直接ネットワー クインタフェース上の SO-DIMM にアクセスできな いものの,ローカルとリモートの双方のネットワーク インタフェース上の SO-DIMM に対して統一した手 段でアクセスすることが可能となる.

このためのバッファとして以下の3種類を用意する.

Write Window:ホストからネットワークインタフェース上,あるいはネットワーク経由でリモートのネットワークインタフェース上のSO-DIMMにデータを送信するためのバッファ.ホストからは

書込み専用である.

- Prefetch Window: ローカルのネットワークインタフェース上,あるいはネットワーク経由でリモートのネットワークインタフェース上のSO-DIMMから読み出したデータを格納するバッファ.ホストからは読み出し専用である.
- LLCM (Low Latency Common Memory):ホス トとコントローラの両者から直接読み書き可能な共 有メモリ.パケット受信ステータスの読み書きやサ イズの小さな転送におけるバッファ等,汎用的に用 いるための領域である.

また,ホストからの要求発行,モード設定,ネット ワークコントローラの状態を読み出すための制御用レ ジスタが用意され,これらへのアクセスによってホス トはネットワークインタフェースを制御する.

これらのバッファ,および制御レジスタは,それぞ れ異なる物理アドレスにマップされ,用途に応じて, Pentium Pro 以降の IA32 アーキテクチャのプロセッ サで利用可能な MTRR (Memory Type Range Register)の設定を行うことによってアクセスの高速化を 図る.

Write Window はホストから読み出しを行わないため,キャッシュを汚さずに高い書込みバンド幅を得られる Write Combining 属性とする.

Prefetch Window は SO-DIMM から読み出した データが格納される.そのため,通常のメモリと同様に MTRR による設定を何も行わない場合, CPU のキャッ シュ上のデータとの間で不整合が生じてしまう.一方 で, Uncachable 属性に設定すると, 読み出し時のバ ンド幅が大幅に低下してしまう<sup>6)</sup>.また,Write Combining 属性は書込み時のバンド幅は高いものの,読み 出し時のバンド幅向上には効果がない.Write Back 属性の場合,読み出したデータはCPUのキャッシュに 格納されるため,キャッシュにヒットする限り,高い読 み出しバンド幅を得ることができる.そこで Prefetch Window は Write Back 属性にし, プリフェッチ要求 を発行する前に,キャッシュをライン単位で無効化す る CLFLUSH 命令を用いてキャッシュのラインを無 効化し、プリフェッチ完了後に PREFETCHNTA 命 令を用いてプリフェッチしたデータをキャッシュに格 納する.このようにすることで読み出し時のバンド幅 を向上させることが可能となる<sup>8)</sup>.

LLCM はホストから読み書き可能であるが,現状 ではホストからはパケット受信ステータスの読み出し を行うのみであるため,Uncachable 属性とする.た だし,DIMMnet-2 に機能を追加し,LLCM に別の用



Fig. 4 Block diagram of network interface controller.

途が追加された場合は,それに適した属性に変更する 必要がある.

制御レジスタはホストからもコントローラからも読 み書き可能であるが,内部で要求発行用レジスタ,モー ド設定系レジスタ,ステータス系レジスタに分かれて おり,レジスタによってアクセス権限は異なる.また, 用途の性質上,ホストからレジスタに対しては64bit か128bit での読み書きしか行わなず,読み出しを行 うレジスタはコントローラ側から書込みが行われるも のがほとんどであるため,Uncachable 属性とする.

3.2 コントローラ部の構造

図 4 にコントローラ部のブロック図を示す.

コントローラ部は大きく以下の4つのブロックから 構成される.

- DDR Host Interface 部:ホスト CPU とのトラン ザクションを処理するブロックである.ホスト側は DDR-SDRAM メモリバスのプロトコルに従って動 作するため,ホスト CPU との間ではクロックの立 ち上がりと立ち下がりの両エッジに対してそれぞ れ 64 bit 幅のデータが転送される.この 64 bit 幅 のデータを Host Interface 内でクロックの立ち上が りに対する 128 bit 幅の片エッジデータ転送に変換 する.
- DDR SO-DIMM Interface 部:基板上の DDR SO-DIMM へのアクセスを制御するブロックである. CoreLogic 部(後述)からの128 bit 幅,100 MHz 片エッジのデータ転送を SO-DIMM の 64 bit 幅, 100 MHz 両エッジ転送に変換する.また,この逆の 変換も行う.
- Switch Interface (SWIF)部: InfiniBand スイッ チとのインタフェースとなるブロックであり, Endto-End の再送機構を持つ.
- CoreLogic 部:ネットワークインタフェースの制御 部である.送信パケットの生成や受信パケットの解 析といった通信処理や,SO-DIMM Interface 部へ



#### のアクセス要求の制御を行う.

なお,試作基板では,DIMMnet-1をInfiniBandに 接続するルータである bDais<sup>9)</sup>の設計をSWIF部に 流用することによってコントローラの開発期間の短縮 を図る.

以降では CoreLogic 部について重点的に述べる.

3.2.1 CoreLogic 部の構成

図5に CoreLigic 部の構成を示す.

DIMMnet-2 の CoreLogic は Write Window, Prefetch Window, LLCM,制御用レジスタ等のホ ストとのインタフェース,および以下の制御部から構 成される.

- Prefetch Unit: SO-DIMM からの読み出し制御部
- Write Unit: SO-DIMM への書込み制御部
- Receive Controller:受信パケット処理部
- Window Controller:送信パケットのヘッダ生成等の送信処理部
- Status Write Unit:パケット受信ステータス書込 み制御部

Myrinet や QsNET ではネットワークインタフェー スコントローラに RISC プロセッサを内蔵し,上位の 通信ライブラリを RISC プロセッサ上で実行するが, DIMMnet-2 では低レイテンシな通信を実現するため にこのような RISC プロセッサを用いずに,種々の通 信処理をハードワイヤードで実装する.RISC プロセッ サを搭載しないため,例外処理やコントローラの制御 を代替の手段で提供する必要がある.DIMMnet-2 で は制御用レジスタを介して,ホスト CPU が例外処理 や制御を行うことで実現する.

また,ホストから SO-DIMM に対して間接アクセ ス方式を採用したことにより, SO-DIMM の領域は ホストの MMU (Memory Management Unit)の物 理-仮想アドレスの管理対象とはならない.したがっ て, SO-DIMM の領域にアクセスする際には,ホスト からコントローラに対して SO-DIMM の物理アドレ スを直接指定するため,コントローラ内部にアドレス 変換用の TLB を内蔵する必要がなく,コントローラ の構造を簡潔にすることが可能となった.

Prefetch Unit や Write Unit は SO-DIMM に対し て,単純な連続した領域に対する読み書き以外に,等間 隔アクセスやリストアクセスといった,不連続な領域 に対する読み書きをサポートする<sup>8)</sup>.DDR-SDRAM は連続領域に対するアクセス時にバースト長に応じ た高いバンド幅を得ることができる構造になっている が,一方で,不連続なデータに対するアクセスに対し ては不必要なデータを多く読み出してしまうため,読 み出したデータに対する有効なデータの割合が低く, この点で,実バンド幅は低下する.そこで,このよう な機能をコントローラに持たせることにより,ホスト CPU に対して不連続なアクセスに対しても有効なデー タの割合を高めることで実バンド幅を向上させる.こ れにより, CPU のキャッシュヒット率やメモリバス の利用効率を向上させることが可能となる.このよう に, DIMMnet-2のネットワークインタフェースコン トローラはネットワークコントローラとしての機能だ けでなく、メモリコントローラとしての機能もあわせ 持つ.

これらのモジュールを FPGA 独自の機能を極力用 いずに実装する. Virtex-II Pro には PowerPC をは じめとする Xilinx 社が提供する様々な IP を搭載する ことが可能であるが, ASIC 化の際にはこれらの IP をそのまま使用することは困難であるため,要求処理 用の FIFO や SWIF 部の RocketIO 等,必要最小限 の IP の使用にとどめている.

試作基板では LLCM は 64 KByte, Prefetch Window, Write Window は Window1 枚あたり 512 Byte とし, Prefetch Window を 8 枚, Write Window を 4 枚搭載する.LLCM は汎用的に用いるために容量を 大きめに確保し, Prefetch Window, Write Window は限定的な利用法で用いるために小容量の Window を複数枚搭載するという構成になっている.試作基板 ではネットワークインタフェースを同時に利用可能な プロセスの数は2 プロセスであり,ネットワークイン タフェース上の資源は各プロセスに均等に割り当てら れる.

3.3 DIMMnet-2 におけるデータ転送処理

DIMMnet-2 でのデータ転送処理は以下のように大 別される.矢印はデータの転送方向を示す.なお,リ モートとの通信においては,通信を起動した側をロー カル側とする.

- (1) Local (Host) Local (DIMMnet-2)
  - (a) Write Window  $\rightarrow$  SO-DIMM
  - (b) Prefetch Window  $\leftarrow$  SO-DIMM
- (2) Local (Host) Remote (Host/DIMMnet-2)
- (a) Write Window  $\rightarrow$  Prefetch Window/SO-DIMM
- (b) Prefetch Window  $\leftarrow$  SO-DIMM
- (3) Local (DIMMnet-2) Remote (Host/ DIMMnet-2)
  - (a) SO-DIMM  $\rightarrow$  Prefetch Window
  - (b) SO-DIMM  $\leftrightarrow$  SO-DIMM

(1)の処理はローカルの DIMMnet-2 上の SO-DIMM に対するアクセスであり,連続したアドレス からの読み書き以外に,等間隔アクセスやリストアク セスといった不連続アクセスに対応する.

(2)-(a) の処理は Write Window に書き込んだデー タをそのままパケットとしてネットワークに送出する 処理であり, Block On The Fly (BOTF)通信<sup>10)</sup>と 呼ばれる.BOTF では,ホストからパケットヘッダを 含むパケットイメージ全体を Write Window に書き込 む.パケットイメージのパケットヘッダ部分を書き換 えることで, 任意のパケットを発行することが可能で ある.また,コントローラからデータを読み出す場合, Write Window は SO-DIMM よりも低レイテンシで 読み出し可能であるため, SO-DIMM からデータを転 送するよりも低レイテンシでのパケット発行が可能と なる.ただし,1回のBOTFでは,ヘッダを含む最大 転送サイズは Write Window の Window1 枚分の大 きさ(512 Byte)に制限される.(2)-(b)の処理はリ モートの SO-DIMM のデータを読み出し, ローカルの Prefetch Window に格納する処理である.(1)-(b) と同様の不連続アクセスによる読み出しも可能である.

(3)の処理はローカルの DIMMnet-2 上の SO-DIMM とリモートの DIMMnet-2 上の SO-DIMM ま たは Prefetch Window との間のデータ転送である. 転送するデータをローカルの SO-DIMM から読み出 す際,またはリモートの SO-DIMM から読み出す際 には(1)-(b)と同様の不連続アクセスによる読み出 しも可能である.

DIMMnet-2 ではこれらの処理を基本通信命令とし てハードウェアで実装し,ホストから 64 bit または 128 bit 長の命令を要求発行用レジスタに対して書き 込むことで要求を発行する.(2)-(a) 以外の処理は 128 bit で発行し,(2)-(a)の BOTF に関してはパ ケット構築に必要な情報が Write Window に書き込 まれているため,レジスタに対しては 64 bit の書込み を行うことで要求発行が可能である.

リモートとの通信は同一の PGID (Process Group ID)を持つプロセスどうしでのみ行うことができる. PGID は同一の並列処理に参加しているプロセス群 に固有の ID である. 並列プロセスを起動させる最初 の時点で,並列プロセスに対して DIMMnet-2 上の資 源を割り当てるのと同時に,特権プロセスがプロセス ID と PGID を組にしてコントローラ上のレジスタに 設定する.このレジスタ上の PGID は特権プロセス 以外のプロセスからは操作ができないようになってい る.パケットを構築する際,コントローラ側でレジス タに設定された PGID をヘッダに付加することで異 なる PGID のプロセスを宛先に指定できないように する.これにより,プロセスグループ間での通信が禁 止されるため,他プロセスグループに属するプロセス の SO-DIMM 領域に対するアクセスを防ぐことが可 能となる.

4.評価

本章では,DIMMnet-2における最も典型的な低遅 延通信手法である BOTF のレイテンシを試作基板を 用いて測定し,基本通信性能を示す.

BOTF 時にホスト側から Write Window に書き込 むパケットイメージのフォーマットを図 6 に示す.1 ライン 64 bit であるが,これに Window Controller でパケットの先頭ライン,最終ライン,それ以外の ラインを識別するために 2 bit の識別子を付加し,計 66 bit のデータとして SWIF に転送する.このデータ を SWIF で InfiniBand のパケットにカプセル化し, ネットワークにパケットを送出する.受信側の SWIF では受信したパケットから DIMMnet-2 のパケットを 取り出し, Receive Controller にデータの受信通知を 行う.

Header 部はパケットの種別や転送サイズによって2 ラインもしくは3ラインとなる.1st Header 部にはパ ケットサイズ,要求する処理の内容,送信先のPGID 等のプロセス識別子が記述され,2nd Header 部には データの格納先アドレス等が記述される.

3 ラインまたは4 ライン目から最後のラインまでが転 送するデータ本体となる.BOTF の場合,Data部の最 大転送サイズは Header が2 ラインの場合で512 Byte - 8 Byte×2(Header 部)= 496 Byte となる.

- 4.1 BOTF によるパケットの送信処理
- BOTF の処理の流れは以下のようになる.
- ホストから Write Window に転送するデータ を書き込む.



表 1 レイテンシの測定環境

Table 1 Measure environment of latency.

| CPU     | Pentium4 2.6 GHz (2,625.918 MHz)          |
|---------|-------------------------------------------|
| Chipset | VIA VT8751A                               |
| Memory  | PC-1600 DDR-SDRAM 512 MByte $\times 1$    |
|         | DIMMnet-2 $\times 1$                      |
| OS      | RedHat8 (Kernel 2.4.27, single user mode) |
| gcc     | 3.3.5 (no compile option)                 |

- (2) ホストから要求発行用レジスタに BOTF の要 求を発行する.
- (3) 要求を Window Controller に転送し, Window Controller を起動する.
- (4) Window Controller が Write Window から
   データを読み出す.
- (5) (4)と同時に, Window Controller が読み出し
   たデータに 2 bit 付加し, SWIF に転送する.
- (6) SWIF は転送されたデータを InfiniBand パケットにカプセル化し、ネットワークに送出する.

これらの処理のうち,(1)~(5)の処理に要するレ イテンシをヘッダを2ライン(16 Byte),転送データ サイズを8~496 Byteの範囲で8 Byteずつ変化させ, 表1に示される環境で測定した.

(6)の処理は bDais を用いた評価から得られた値を 用いている.SWIF のレイテンシは転送サイズに依存 性があり,サイズの大きな転送であるほど,レイテン シが大きくなる.8Byte 送信時の SWIF 部のレイテ ンシは 0.188 µs であり,512Byte 送信時のレイテン シは 0.676 µs である.

(1)~(5)と(6)とでレイテンシの測定を分離して いる理由として,コントローラのみのレイテンシを測 定する場合,Window Controller の処理が完了した ことを検知することはステータスレジスタを参照する ことで可能であるが,SWIFの送信側の処理が完了し たことを検知するのが困難であるためである.また, SWIF 部のレイテンシは bDais の評価から得られる ため,ホスト~CoreLogic までと SWIF 部で分離し て評価を行った.

そのため,評価用にコントローラの構造を変更し,



Fig. 7 Controller for evaluation of packet receiving.



SWIF 部に SWIF を模した FIFO を挿入したコント ローラを用いて評価を行った.評価用コントローラのブ ロック図を図7に示す.Window Controller から送出 されたパケットは FIFO を通じて Receive Controller で処理される.このコントローラでパケットの受信処 理の評価も行うため,Window Controller が転送する パケットすべてを書き込むまで Receive Controller が FIFO からデータを読み出さないように FIFO の信号 線を制御し,送信側と受信側の処理が重ならないよう にしている.

BOTF のレイテンシの測定結果を図 8 に示す.

図 8 の Measured Latency が実機上で測定された 値(以下,実測値)であり, Theoretical Latency が 理論上の BOTF のレイテンシ(以下,理論値)であ る.理論値は,以下のように求めた値を足し合わせた ものである.

- (1)の処理:SSE 命令によって Write Window
   にデータを書き込む処理を 100 万回実行し,その
   平均をとる.
- (2)の処理: MMX 命令によって要求発行用レジ スタに要求を発行する処理を100万回実行し,そ

表 2 BOTF(8Byte 送信時)のレイテンシの内訳 Table 2 Detail of the latency of BOTF(8Byte send).

| 処理内容                        | 処理時間 $[\mu s]$ |
|-----------------------------|----------------|
| ホストから Write Window ヘデータの書込み | 0.201          |
| ホストから Register へ BOTF 要求書込み | 0.081          |
| BOTF 要求発行                   | 0.010          |
| BOTF の要求処理                  | 0.090          |
| SWIF 通過遅延                   | 0.188          |
| 合計                          | 0.570          |

の平均をとる.

- (3)~(5)の処理: Verilog シミュレーションに よって測定.
- (6)の処理: Measured Latency と同様に, bDais
   による測定値を用いる.

理論値と実測値とでは,全般的に理論値の方がレ イテンシが小さいが,これは実機を用いた測定の際 のステータスレジスタのポーリングが影響している. ステータスレジスタのポーリングに要するレイテン シを実機上で測定した結果,ポーリング1回につき 0.233 µs 程度要することが測定された.ポーリングレ イテンシが最大になるのは,ステータスレジスタの値 を読み出した直後に BOTF 処理が完了する場合であ リ,この場合のレイテンシは 0.350 µs 程度になると予 想される.実測値と理論値のレイテンシの差は転送サ イズが 152 Byte のときに最大であり,約 0.411 µs で ある.この値はポーリングレイテンシの予測最大値に 近い値であり,ポーリング以外の処理に要するレイテ ンシは実測値と理論値でほぼ一致すると考えられる. 実際に BOTF を何らかのアプリケーションで実行す る場合には,送信側のステータス領域のポーリングは 通信レイテンシに影響しないため,理論値に近いレイ テンシで BOTF によるパケットの送出が可能である と思われる.

QsNET II でも BOTF と同様の機能が提供され, この機能を用いた場合の 8 Byte のデータ送信時のレ イテンシは  $1.3 \mu s$  である.対して,DIMMnet-2 では 8 Byte のデータ送信に要するレイテンシは実測値で  $0.922 \mu s$ ,理論値で  $0.570 \mu s$  であり,BOTF が理論値 に近いレイテンシで実行可能であるならば,QsNET II の約 43.8%のレイテンシとなり,きわめて低いレイ テンシでデータ転送が可能である.8 Byte 転送時のレ イテンシ(理論値)の内訳を表 2 に,BOTF 要求に 対する Window Controller の処理内容とそれに要す るクロック数を表 3 に示す.

レイテンシを低く抑えられた理由として,(1) PCI バスよりもアクセスレイテンシの小さいメモリバスを 使用していること,(2) 基本通信命令をハードワイヤー 表 3 BOTF (8 Byte 送信時) 実行時の Window Controller の 処理の内訳

Table 3 Detail of transaction of BOTF (8 Byte send) at Window Controller.

| 処理内容                                | クロック数 |
|-------------------------------------|-------|
| Window Controller を起動               | 0     |
| Window Controller が要求を取得            | +2    |
| Window Controller が要求を識別            | +1    |
| BOTF 開始                             | +1    |
| Write Window ヘデータの読み出し要求            | +1    |
| 1st Header 取得・PGID フィールドの書き換え       | +1    |
| 1st Header を SWIF に転送・2nd Header 取得 | +1    |
| 2nd Header を SWIF に転送・1st Data 取得   | +1    |
| 読み出したデータを EOP まで SWIF に転送           | +1    |
| 合計                                  | 9     |

ドで実装し, コントローラ内部で TLB を用いたアド レス変換を必要としない構造にしたことによる通信処 理に要するクロック数の削減,(3) DIMMnet-2 のパ ケットヘッダや BOTF 要求の発行に必要なコマンド の bit 数を低く抑えたことがあげられる.

今回の BOTF の評価は転送するデータが CPU の キャッシュに存在することを前提としたものである. キャッシュに存在しないデータを BOTF で転送する 場合,データを Write Window に書き込む際のレイ テンシがボトルネックとなり,性能は 1/2~1/3 程度 にまで落ちることが測定により明らかになっている. そのため,BOTF を低レイテンシで実行するには,転 送するデータをあらかじめ PREFETCHNTA 命令等 で CPU のキャッシュに入れておく必要がある.また, このような命令を使用しない場合でも,何らかの処理 を行った結果をただちにネットワークに送出する場合 等は,処理結果がキャッシュ上に存在するため,高い パフォーマンスを得ることが可能と予想される.

4.2 BOTF の連続発行

496 Byte のデータを転送する際の Window Controller での処理に要するクロック数は Verilog シミュ レーションより 70 クロックと分かった.したがって, コントローラを 100 MHz で動作させた場合, BOTF で 496 Byte 転送した際に, Window Controller で 0.700 µs 要することになる.

また,ホストから 24~512 Byte の範囲で Write Window にデータを書き込む際のレイテンシは, 464 Byte 前後の場合が最大となり,約 0.409 µs であ り,要求発行に要するレイテンシは約 0.081 µs であっ たことから, BOTF を Window Controller で処理し ている間にホストから 2 枚目の Write Window にデー タを書き込み,次の BOTF 要求を発行することが可 能である.







Fig. 10 Latency of BOTF with continuous issue.

#### この流れの概略を図9に示す.

2 枚の Write Window を交互に使用して BOTF で 8~1,488 Byte のデータを転送した場合のレイテンシ を図 10 に示す.図 10 は 8~496 Byte までは 1 枚の Write Window を使用した場合の BOTF の評価値に SWIF のレイテンシを加えた値をそのまま用い,それ 以降のサイズの場合は,各 BOTF のレイテンシを 1 回目の BOTF と同様であると仮定したグラフである. また,比較対象として Write Window を 1 枚のみ使 用して BOTF を連続発行した際のレイテンシも同時 に示す.

図10より,Write Windowを使用する枚数によって, BOTFを連続発行した際の2回目以降のBOTFにお いて顕著な差が見られることが分かる.Write Window を2枚使用することによって,2回目以降のBOTF においてはホストからWrite Windowへのパケット イメージの書込み,要求発行レジスタへの要求発行, Window Controller での要求の識別に要するレイテ ンシがWindow Controllerにおける前回のBOTFの 処理とオーバラップすることで隠蔽されるため,Window Controllerを1枚のみ使用した場合と比較してレ イテンシが低く抑えられている.しかしながら,2回 目以降のBOTFでは,転送サイズによってはSWIF において前回のBOTFのSWIFの処理が完了してい ないことによる待ち状態が発生する.前回のBOTFで 512 Byte 転送した場合の SWIF の遅延は  $0.676 \mu s$  で あり,次の BOTF の $(1) \sim (5)$ の処理がこの時間以 内に完了する場合は SWIF で待ち状態が発生する.1 枚の Write Window で BOTF を連続発行した際のグ ラフにおいて 504 ~ 632 Byte, 1,000 ~ 1,128 Byte の 範囲でグラフが直線になっているのはこの影響による ものである.

4.3 パケット受信処理

DIMMnet-2では、パケットのデータ部をネットワー クインタフェース上の SO-DIMM か、コントローラ 内部の Prefetch Window のどちらかに受信すること が可能である.どちらに受信するかは送信側で指定さ れ、パケットヘッダに書き込まれる.

受信側の処理の流れを以下に示す.

- SWIF がパケットを受信し, Receive Controller
   にパケットが到着したことを通知する.
- (2) Receive Controller が起動し、パケットヘッダ を SWIF から読み出す.
- (3) パケットヘッダを解析し,データ部を SWIF か ら読み出す.
- (3)で読み出したデータ部を最終ラインまで
   Prefetch Window または SO-DIMM に書き
   込む.
- (5) 書込み完了後, Receive Controller は Status
   Write Unit に対し,完了通知を LLCM へ書き
   込むための要求を発行する.
- (6) Status Write Unit が LLCM へ完了通知を書き込む.

図7に示されるコントローラに対して BOTF 要求 を発行し,LLCM にパケット受信ステータスが書き 込まれるまでのレイテンシを測定する.ホストからは LLCM をポーリングすることにより,パケットの受信 を検知する.測定範囲は Write Window へのデータ の書込みが完了し,要求発行レジスタに要求を発行す る直前から,LLCM に受信ステータスが書き込まれ たことを検知するまでである.この測定値から要求発 行に要するレイテンシと CoreLogic 内部の送信側の BOTF 処理に要するレイテンシの値を引くことによっ て,CoreLogic の受信側のパケット処理に要するレイ テンシを求める.この値に,bDais の受信側のレイテ ンシの値を加算し,SWIF を含めたパケット受信処理 のレイテンシとした.受信先には Prefetch Window と SO-DIMM の両方を指定して評価を行った.

これらの結果を図 11 に示す.

図 11 の Prefetch Window, SO-DIMM のグラフが 実機上で測定された値(以下,実測値)であり, The-





表 4 受信処理の処理時間の内訳

Table 4 Detail of the latency of receive.

| 処理内容      | 処理時間 $[\mu s]$ |
|-----------|----------------|
| SWIF 通過遅延 | 0.312          |
| 受信処理      | 0.130          |
| 合計        | 0.442          |

oretical Latency が Prefetch Window に受信した際 の理論上のレイテンシ(以下,理論値)である.理論 値はパケット受信処理を Verilog シミュレーションに よって測定した値に,SWIF の受信側のレイテンシを 足したものである.

グラフより, Prefetch Window に受信する際の実測 値と理論値の差はほぼ 0.16~0.35 µs の範囲に収まっ ている.これは LLCM のポーリングと送信側のレイ テンシの影響によるものであると考えられる.LLCM のポーリングにはステータスレジスタのポーリングと 同様に1回あたり約 0.233 µs 要することが測定され ており,ポーリングとパケット受信処理完了のタイミ ングによって,約0.117~0.350 µs の範囲で変動する と思われる.そのため,この実測値と理論値の差は, ほとんどがポーリングによるものであると推測され, 受信処理そのものに関してはホスト側はまったく影響 しないことからも,受信処理はほぼ理論値に近いレイ テンシで完了することができると考えられる.

8 Byte のデータを Prefetch Window に受信する際 の理論上のレイテンシは 0.442 µs である . 8 Byte 受 信時のレイテンシの内訳を表 4 に,受信側の処理内 容とそれに要するクロック数を表 5 に示す.

Prefetch Window は Prefetch Unit からも書込み が行われるため,アクセス制御のための処理が必要と なる.また,ステータス書込みの処理のため,受信処 理は送信処理よりも4クロック長くかかる.しかし, Receive Controller は Status Write Unit にステータ

| 処理内容                             | クロック数 |
|----------------------------------|-------|
| SWIF にパケットが到着したことを検出             | 0     |
| SWIF ヘデータの読み出し要求                 | +1    |
| 1st Header 受信                    | +1    |
| 2nd Header 受信・要求の識別              | +1    |
| Prefetch Window へ書込み開始           | +1    |
| Prefetch Window への書込み権要求         | +1    |
| Prefetch Window への書込み権取得         | +1    |
| SWIF ヘデータの読み出し要求                 | +1    |
| Prefetch Window へ EOP までデータを書き込む | +1    |
| Prefetch Window への書込み権解放         | +1    |
| Status Write Unit ヘステータス書込み要求    | +1    |
| Status Write Unit がステータスを書き込む    | +3    |
| 合計                               | 13    |

ス書込み要求を発行すると,ただちに次のパケットの 受信処理に入ることが可能である.したがって,連続 してパケットを受信した際には,パケットの受信処理 と1つ前に受信したパケットのステータス書込みを オーバラップさせて動作させることができる.

Prefetch Window への受信と SO-DIMM への受信 を比較すると,全般的に SO-DIMM への受信の方がレ イテンシが大きい.これは,Prefetch Window にデー タを書き込む際にはアドレスと同時に Write Enable とデータを転送するだけでデータの書込みを行えるの に対し,SO-DIMM への書込みには RAS 信号,CAS 信号を入力した後にデータを入力することによって書 込みが行われるため,Prefetch Window に比べて書 込みに要するレイテンシが大きいためである.また, SO-DIMM は DRAM であるため,リフレッシュが定 期的に必要である.リフレッシュ中はデータの書込みが 重なった場合は書込みはリフレッシュ完了まで待つこ とになる.したがって,SO-DIMM への書込みレイテ ンシは書き込むタイミングによって変動する.

今回の評価では LLCM をポーリングすることによ り、パケットの受信を検知したが、LLCM をポーリン グするのは CPU 資源の浪費であるため、パケットを 受信した際には、DIMMnet-2 からホスト CPU に対 して割込みをかけることでパケットの受信を通知する 手法が望ましい、しかし、メモリバスには割込み線が 存在しないため、メモリバスを利用してホスト CPU に割込みをかけることは不可能である、そこで、PCI バスに割込み専用のボードを装着し、DIMMnet-2 か らそのボードに割込み線を接続することで、パケット の受信時に PCI バスから割込みをかけ、パケットの 到着をホストに通知する手法を採用する予定である、

#### 表 6 コントローラ部の配置配線結果

Table 6 Result of placement and route of network interface controller.

| スライス数                          | 14,202~(42%)         |  |  |
|--------------------------------|----------------------|--|--|
| Block RAM                      | 170 (51%)            |  |  |
| 動作周波数                          | $98.261\mathrm{MHz}$ |  |  |
| 合成ツール: Xilinx ISE 6.3i SP3     |                      |  |  |
| <b>デバイス</b> : XC2VP70-7FF1517C |                      |  |  |

#### 4.4 合成結果

DIMMnet-2 ネットワークインタフェースコントローラの設計と実装

表 6 にネットワークインタフェースコントローラを Xilinx 社の提供する合成ツールである ISE (ISE6.3i SP3)を用いて配置配線を行った結果を示す.

回路規模は FPGA の回路規模の半分程度で済んで いるものの,論理合成の時点で動作周波数が PC1600 の規格で動作させるために必要な動作周波数である 100 MHz を下回ってしまっている.現状では配置配線 後の動作に影響は出ていないが,ホストインタフェー ス部,SO-DIMM インタフェース部がクリティカルパ スであることが分かっており,今後は,これらの論理 を見直す必要がある.

また,Block RAM の使用量が大きく,170 個の Block RAM のうち,半数以上を Write Window, Prefetch Window,LLCM で消費していることが判 明している.これらはホストから直接アクセスされる ことからホストインタフェースと接続されるモジュー ルである.そのため,FPGA 上のどのBlock RAM を使用してもよいというわけではなく,ホストインタ フェースの近辺に設けられているBlock RAM を用 いることが動作周波数の維持,向上という観点から望 ましく,合成時にそのような制約を設けている.した がって,これらのモジュールに割り当てることが可能 な Block RAM は限られており,Prefetch Window や Write Windowの枚数,LLCM の容量等を再検討 し,最適なサイズに変更する必要があると思われる.

このコントローラを ASIC 化する際には Virtex-II Pro に搭載された IP である RocketIO が使用できな くなるため, SWIF 部の一部の論理を InfiniBand の IP に変更する,またはコントローラとは別チップとし て基板上に搭載する必要がある.そのため,ASIC 化 時には回路規模は同程度または小さくなることが予想 される.また,FPGA に搭載されている Block RAM は位置が固定されているため,配線が長くなる場合 があるが,ASIC 化の際には RAM の位置もレイアウ トの段階で変更可能なため,配線長の点では有利にな ると思われる.しかし,現状ですでに 200 pin DDR SO-DIMM インタフェースを 2 つ,184 pin DDR ホ ストインタフェースを1つ持つため, I/O ピンの数は 回路規模に比べて多いものになる.

ASIC 化することにより, 基板面積は小さくなると 予想される.これは, FPGA をコンフィギュレーショ ンするための素子が必要なくなるためである.

ASIC 化したことにより動作周波数が向上し, PC1600 より高速な DDR の規格に対応可能になっ た場合,ホストからのアクセスレイテンシ,およびコ ントローラの処理速度が向上するため,さらに低レイ テンシでの通信が可能となると予測される.表2から, 8 Byteのデータ転送時においてホストから DIMMnet-2 に対するアクセスがレイテンシの半分程度を占めて おり,より高速な規格に対応することによるレイテン シの改善への影響は大きいものと予想される.

4.5 デュアルチャネルへの対応

BOTF とパケット受信処理の評価により,きわめ て低いレイテンシでパケットの送受信が可能であるこ とが示された.しかしながら,DIMMnet-2を単純に DDR-SDRAM スロットに装着した場合,デュアルチャ ネルでの動作ができなくなり,ノードの性能が低下す る.そのため,DIMMnet-2をデュアルチャネルでの動 作に対応させることは必須であり,現在,DIMMnet-2 を2枚装着する等,デュアルチャネル動作への対応の 検討を進めている.

#### 5. 関連研究

PC クラスタに用いられるインターコネクトの中で も通信レイテンシが特に低いものとして, Quadrics 社 の QsNET があげられる.

PCI-X に対応した QsNET II<sup>4)</sup> QM-500 ネットワー クインタフェースには,200 MHz で動作する Elan4 ネットワークプロセッサが搭載されている.Elan4 は サイズの小さいメッセージを低レイテンシで処理する STEN (Short Transaction Engine)を内蔵しており, STEN は BOTF と同様の機能を提供する.QsNET II は 8 Byte のデータ転送を  $1.3 \,\mu s$  で完了することが でき,このうち,Elan4 での処理によるレイテンシは 約  $0.240 \,\mu s$  である<sup>11)</sup>.

ー方で,DIMMnet-2 は 8 Byte データのホストか らの送信を 0.570 μs で完了することができる.このう ち,コントローラ部のレイテンシは 0.288 μs であり, Elan4 の半分の動作周波数でありながら,Elan4 の約 1.2 倍程度のレイテンシに抑えている.ホストのレイ テンシも含めると,QsNET II の 43.8%程度のレイテ ンシに抑えられている.

#### 6. まとめと今後の課題

本報告では PC クラスタ向けインターコネクトで ある DIMMnet-2 試作基板に搭載するネットワークイ ンタフェースコントローラについて述べ,性能評価を 行った.その結果,8Byte データ送出のレイテンシが 0.570 µs と見積もられ,100 MHz という比較的低い 動作周波数ながら,QsNET II の43.8%程度のレイテ ンシで送信を行うことが可能であることが示された.

また,Xilinx 社の合成ツールを用いて回路規模を示し,それを元にASIC 化を行った際の性能や回路規模等の予測を示した.ASIC 化により動作周波数が向上し,より高速な DDR の規格に対応することが可能となれば,より低レイテンシな通信が可能である.

今後は, ノード間をスイッチを介して接続し, ノー ド間通信の性能を測定していくと同時に, 論理の見直 しを行い, コントローラの動作周波数の向上を目指す. また, デュアルチャネルへの対応や DIMMnet-2 を用 いることによる実アプリケーションへ与える効果を調 べていく予定である.

謝辞 本研究は総務省戦略的情報通信研究開発推進 制度の一環として行われたものである.DIMMnet-2 の開発に関する議論,開発にご参加いただいている (株)日立ITの今城氏,岩田氏,上嶋氏,慶應義塾大 学の西助手,渡邊氏,大塚氏に感謝いたします.

#### 参考文献

- Boden N.J., Cohen, D., Felderman, R.E., Kulawik, A.E., Seitz, C.L., Seizovic, J.N. and Su, W.-K.: Myrinet — A gigabit per second local area network, *IEEE Micro*, Vol.15, No.1, pp.29–36 (1995).
- Petrini, F., Fang, W.-C., Hoisie, A., Coll, S. and Frachtenberg, E.: The Quadrics Network: High-Performance Clustering Technology, *IEEE Micro*, Vol.22, No.1, pp.46–57 (2002).
- 3) InfiniBand Trade Association: http://www. infiniba-ndta.org/
- Addison, D., Beecroft, J., Hewson, D., McLaren, M. and Roweth, D.: QsNet II: Performance Evaluation, http://www.quadrics.com/ (2003).
- 5) 田邊 昇,山本淳二,工藤知宏:メモリスロット搭載型ネットワークインタフェース DIMMnet-1 における細粒度通信機構,情報処理学会アーキテクチャ研究会,Vol.2000-ARC-137, pp.65-70 (2000).
- 6) 田邊 昇,濱田芳博,三橋彰浩,中條拓伯,天野

英晴:メモリスロット装着型ネットワークインタ フェース DIMMnet-2 の構想,情報処理学会アー キテクチャ研究会, Vol.2003-ARC-152, pp.61-66 (2003).

- Liu, J., Chandrasekaran, B., Wu, J., Jiang, W., Kini, S., Yu, W., Buntinas, D., Wyckoff, P. and Panda, D.K.: Performance Comparison of MPI Implementations over InfiniBand, Myrinet and Quadrics, *SC2003* (2003).
- 8) 田邊 昇,中武正繁,箱崎博孝,土肥康孝,中條 拓伯,天野英晴:プリフェッチ機能付きメモリモ ジュールによる不連続アクセスの連続化,情報処理 学会アーキテクチャ研究会,Vol.2004-ARC-157, pp.139–144 (2004).
- 濱田芳博,西 宏章,田邊 昇,天野英晴,中條 拓伯:bDais: DIMMnet-1/InfiniBand 間ルータ の開発,先進的計算基盤システムシンポジウ ム SACSIS2004, Vol.2004, No.6, pp.133–134 (2004).
- 田邊 昇,山本淳二,濱田芳博,中條拓伯,工 藤知宏,天野英晴:DIMM スロット搭載型ネッ トワークインタフェース DIMMnet-1 とその高 バンド幅通信機構 BOTF,情報処理学会論文誌, Vol.43, No.04-005, pp.866-878 (2002).
- 11) Addison, D., Beecroft, J., Hewson, D., McLaren, M. and Petrini, F.: Quadrics Qs-Net II: A network for Supercomputing Applications, *Hot Chips* 15, Stanford University, Palo Alto, CA (2003). Available from http://www.c3.lanl.gov/~fabrizio/talks/hot03. ppt

(平成 17 年 1 月 24 日受付)(平成 17 年 5 月 3 日採録)



北村 聡(学生会員)
 2005年慶應義塾大学大学院理工
 学研究科開放環境科学専攻前期博士
 課程修了.現在,同後期博士課程に
 在学.計算機アーキテクチャに関す
 る研究に従事.



#### 濱田 芳博

2001年まで三菱製紙(株)に勤務. 2003年東京農工大学大学院工学研究 科電子情報工学専攻前期課程修了. 現在,同後期課程に在学.PCクラ スタ向けネットワークインタフェー

スに関する研究に従事.



#### 宮部 保雄

2005 年慶應義塾大学理工学部情 報工学科卒業.現在,同大学大学院 理工学研究科開放環境科学専攻前期 博士課程に在学.計算機アーキテク チャに関する研究に従事.



#### 伊澤 徹

2005 年慶應義塾大学理工学部情報工学科卒業.現在,同大学大学院 理工学研究科開放環境科学専攻前期 博士課程に在学.計算機アーキテク チャに関する研究に従事.



#### 宮代 具隆

2005 年慶應義塾大学理工学部情報工学科卒業.現在,同大学大学院理工学研究科開放環境科学専攻前期博士課程に在学.計算機アーキテクチャに関する研究に従事.



#### 田邊 昇(正会員)

1985年横浜国立大学工学部卒業. 1987年同大学大学院工学研究科修 了.同年(株)東芝に入社.1998年 より2001年まで新情報処理開発機 構つくば研究センターに出向.並列

処理,超並列計算機,ベクトルプロセッサ,PCクラ スタ向けネットワークインタフェース,メモリアーキ テクチャに関する研究に従事.現在(株)東芝・研究 開発センター勤務.工学博士.電子情報通信学会会員.



中條 拓伯(正会員)

1961年生.1985年神戸大学工学 部電気工学科卒業.1987年同大学大 学院工学研究科修了.1989年神戸大 学工学部助手の後,1998年より1年 間 Illinois 大学 Urbana-Champaign



天野 英晴(正会員)
1986年慶應義塾大学大学院理工
学研究科電気工学専攻博士課程修了.
現在,慶應義塾大学理工学部情報工
学科教授.工学博士.計算機アーキ
テクチャの研究に従事.

校 Center for Supercomputing Research and Development (CSRD) にて Visiting Research Assistant Professor を経て,現在東京農工大学大学院共生科学 技術研究部助教授.プロセッサアーキテクチャ,並列 処理,クラスタコンピューティング,高速ネットワー クインタフェースに関する研究に従事.電子情報通信 学会,IEEE CS 各会員.博士(工学).