# DIMM スロット 搭載型ネットワークインタフェース DIMMnet-1 とその高バンド 幅通信機構 BOTF

| 田 | 邊 |   | 昇 <sup>†,</sup> | 山 | 本 | 淳 | <u> </u> | 濱 | 田 | 芳 | 博††  |
|---|---|---|-----------------|---|---|---|----------|---|---|---|------|
| 中 | 條 | 拓 | 伯††             | Т | 藤 | 知 | 宏†       | 天 | 野 | 英 | 晴††† |

我々は DIMM スロット搭載型ネットワークインタフェース DIMMnet-1 を開発中である.DIMMnet-1 は BOTF という高バンド 幅通信機構を装備している.これにより,1 GHz の Pentium3 ベース PC 上での同時送受信継続バンド 幅として各方向 1,022 MB/s が実現可能で,66 MB/s を理論的限界とする標準的な PCI バスに搭載されたネットワークインタフェースの 10 倍以上の性能向上が得られることを示す.さらに 1.33 GHz の Athlon ベース PC 上での実験評価により,DIMMnet を DDR-DIMM に対応させることにより,同時送受信継続バンド 幅を各方向 1,882 MB/s にまで改善できることを示す.

# BOTF: A High Bandwidth Communication Mechanism of DIMMnet-1 Network Interface Plugged into a DIMM Slot

NOBORU TANABE,<sup>†,</sup> JUNJI YAMAMOTO,<sup>†,</sup> YOSHIHIRO HAMADA,<sup>††</sup> HIRONORI NAKAJO,<sup>††</sup> TOMOHIRO KUDOH<sup>†</sup> and HIDEHARU AMANO<sup>†††</sup>

A high performance network interface architecture for PC clusters in order to overcome the limitation of PCI bus and communication overhead is presented. We propose a network interface plugged into a DIMM slot with BOTF sending mechanisms. A prototype called DIMMnet-1 and its implementation are also presented. DIMMnet-1's simultaneous sending and receiving bandwidth evaluated by measuring data copying performance on 1 GHz Pentium3 based PC is 1,022 MB/s for each directions. This performance is more than ten times faster than NIC plagged into standard PCI bus whose thoretical limit is 66 MB/s. The effect of supporting DDR slot on the future DIMMnet is evaluated on Athlon 1.33 GHz based PC. The result shows 1,882 MB/s for each directions can be realized.

1. はじめに

近年,高性能 PC を多数用いて並列処理を行う,い わゆる PC クラスタが注目されている.高性能な PC クラスタ用に Myrinet<sup>1)</sup>, SCI-PCI<sup>2)</sup>等の高速ネット ワークインタフェース(NIC)が各種<sup>3),4)</sup>開発されて おり,これらはいずれも PCI バスに接続される.光 インタコネクションの持つ大きなバンド幅を有効に活

| t   | 新情報処理開発機構                                         |
|-----|---------------------------------------------------|
|     | Real World Computing Partnership                  |
| ††  | 東京農工大学                                            |
|     | Tokyo University of Agriculture and Technology    |
| ††† | 慶應義塾大学                                            |
|     | Keio University                                   |
|     | 現在,株式会社東芝,研究開発センター                                |
|     | Presently with Corporate Research and Development |
|     | Center, Toshiba, Corp.                            |
|     | 現在,株式会社日立製作所                                      |
|     | Presently with Hitachi, Ltd.                      |
|     |                                                   |

用するには従来の PCI バスではバンド幅および遅延 ともに力不足である.

一方, Infiniband<sup>8)</sup>が次世代のサーバ向け入出力の 規格として提案され,製品が開発されつつある.し かし,最も価格性能比においてメリットのあるエンド ユーザ用の量産 PCに, Infiniband が普及するかどう か不透明である.GigaE PM2<sup>5)</sup>を用いるなどしてす べてをコモディティ部品で構築するシステムよりも十 分優れた性能を実現しつつ,価格性能比を最大にする PC クラスタを構築するためには, Infiniband 等とは 別のアプローチも検討に値する.

このような背景から我々は,従来のように PCI バ ス等の入出力バスではなく,メモリスロットに搭載さ れるタイプの NIC を検討してきた.このようなクラ スの NIC を MEMOnet<sup>16),18)</sup>と名付けた.MEMOnet は安価な PC 上で, PCI バスのバンド幅や遅延時 間の限界を超越した NIC を実現可能とすると思われ る. 我々は MEMOnet のプロトタイプとして DIMM (Dual inline memory module) スロットに搭載され る DIMMnet-1を開発中である.

本論文ではまず,バンド幅の観点から従来型 NIC の問題点を列挙する.これらが改善された NIC の プロトタイプである DIMMnet-1 の概要を紹介し, DIMMnet-1 においてはこれらがどのように解決され ているかを解説する.次に DIMMnet-1 の同時送受信 継続バンド幅を予測する.最後に,DDR-DIMMに対 応した場合の効果について述べる.

#### 2. 従来型 NIC のバンド 幅に関する課題

現在流通している製品レベルの PC クラスタ用 NIC は PCI バスベースであり,下記に示す種々のバンド 幅に関する課題をかかえている.

2.1 ピークバンド幅不足

SCI-PCI<sup>2)</sup>や RHiNET<sup>6)</sup>のように 10 GBps 程度の 通信リンクは光インタフェースを用いたり,比較的短 距離であれば Synfinity<sup>7)</sup>のように先進的な電気的イ ンタフェースを用いれば可能である.しかし,PCIバ スは 133 MB/s,64 bit66 MHzPCIでも532 MB/s に すぎず,これらの通信リンクを効率的に動作させるた めにはバンド幅が足りない.安価なコンシューマ用 PC には 64 bit66 MHzPCI や PCIX 等のサーバ用の I/O バスが現状では搭載されておらず,将来的にも搭載さ れるか不透明である.よって当面は安価なコンシュー マ用 PC では 133 MB/s という制約を受ける.

2.2 同時送受信継続バンド幅不足

PCIボトルネックは,図1に示されるような「送 信と受信を同時に行う」という,SPMD型アプリケー ションの実行において頻繁に発生する状況で最も顕著 になる.図1で明らかなように,いかにメモリバンド 幅が高バンド幅になろうとも,いかに通信リンクが高 速になろうとも,NICがPCIバスに搭載される以上, PCIバスのたかだか半分の66 MB/sで律速されてし まう.実際にはPCIバスが半二重通信路であるため 方向切替えが頻発し,そのオーバヘッドによってピー クの半分のバンド幅も出すことが困難である.

2.3 主記憶アクセスの競合

PCI バスからの DMA アクセスも, CPU からの主 記憶アクセスも同じ主記憶へのアクセスとなるので, 競合が発生する.通常の PC の主記憶のバンド幅は 800 MB/s~1 GB/s 程度で,そこに光リンク等からの 1 GB/s ものデータを受信しようとすると,それだけ でバンド幅が足りなくなり,ホスト CPU の処理速度 低下を引き起こす.





#### 2.4 各種 PCI カードとの競合

イーサカード, SCSI カード, ビデオカード, ビデ オキャプチャカード等の PCI カードとも PCI バスバ ンド幅や,主記憶バンド幅を分け合わなければならな い.たとえば,ビデオキャプチャカードと Myrinet で フルサイズ,フルレートの動画転送(約35 MB/s)を 主記憶経由で行おうとすると, PCI のバンド幅を使い きる.

2.5 NIC メモリへのアクセス集中

代表的な従来型 NIC である Myrinet において,送 信と受信を並行して行わせるならば NIC 上のメモリ (NIC メモリ)をアクセスする DMA 転送が4 種類 (主記憶 ⇔ NIC メモリ, NIC メモリ ⇔ 通信リンク) と,NIC 上のプロセッサからの命令フェッチ,データ フェッチがすべて1カ所の NIC メモリ(Myrinet の場 合は小容量高速 SRAM)に集中する.このため,通 信リンクを8倍のバンド幅に引き上げたら,Myrinet のような構成では NIC メモリに必要なバンド幅を確 保することが困難である.

特に通信リンクのバンド幅が I/O バスのバンド幅 より大きい場合は,通信リンクから入力されるパケッ トを NIC メモリを介さず主記憶上に受けようとする と NIC あるいはネットワークに存在する小容量バッ ファを溢れさせてかえってパフォーマンスダウンにつ ながることが予想される.このため,通信は必ず NIC メモリ経由とならざるをえず,このことは NIC メモ リのバンド幅不足に拍車をかける.

2.6 細粒度通信におけるバンド幅不足

CPU のレジスタにすべて保持することのできる程 度の少量のデータを,低オーバヘッドで送受信するこ とができるならば,計算処理フェーズと通信フェーズ を完全に分けることなく,通信を起動後,相手にデー タが届くまでの間に次の計算処理をすることを効率的 に行える.いい換えると,1つの通信方式における低 遅延と高バンド幅の両立が重要である.ところが,従 来のNICでは通信オーバヘッドが大きく,このよう な細粒度な通信を行うとかえって効率が悪くなる.通 常,uncached属性の領域にマップされるDMAコン トローラへの制御用データの受け渡しに時間がかか る.そのうえ,通信の完了通知もポーリングではなく DMAで行わないとPCIバス上での競合により送受 信のバンド幅低下を引き起こすので,遅延が犠牲とな り,細粒度通信におけるバンド幅が不足する.

## 2.7 高遅延ゆえの通信時期の集中

従来の NIC では通信起動時間が短くても数 µs 程 度かかるので,メッセージのサイズを大きくして通信 回数を減らすためにある程度同じ行き先のデータが溜 まるまで計算を行ってから通信を行わざるをえない. よって SPMD タイプのアプリケーションでは通信の集 中するフェーズと,通信が発生しないフェーズがくっ きり分かれがちとなる.このため実質的なバンド幅を 低めてしまう.さらに,結果をまずメモリに溜め込み, パッキングしてから送り,受信側でもアンパッキング が必要なので,不必要な主記憶バンド幅消費や,パッ キング・アンパッキングオーバヘッドにより実質通信 バンド幅の低下を引き起こす.

#### 2.8 I/O バスの標準化の弊害

通常のパーソナルユースにおいては,CPUの著し い速度向上に沿った形で増強されるメモリバスへの要 求と異なり,I/Oバスへのバンド幅に対する要求は比 較的小さい.このため,PCIバスが長い間PCのI/O バスのデファクトスタンダードとして君臨したまま, なかなか進歩しなかった.一方,PCクラスタ用 NIC は CPU 速度に応じた高いバンド幅が必要である.こ のため,NIC がPCIバス上に搭載される限り,NIC がホストとの間でやりとりするためのバンド幅とホス ト CPUの速度の間のバランスを維持することが困難 である.

## 3. DIMMnet-1 $\mathcal{D} \sqcap \mathcal{P} \land \mathcal{P}$

我々は 32 bit33 MHzPCI バススロットしか搭載さ れていない低コストなパソコン上で, PCI 型 NIC の 十倍以上高速な1 GB/s 程度の同時送受信継続バンド 幅を実現できるならば画期的であると考え, それを目 標とした.そのために後述する MEMOnet や Block On-the-fly(BOTF)送信<sup>17),19)</sup>等のアーキテクチャを 考案し,その有効性を実証すべく, DIMMnet のプロ トタイプ DIMMnet-1を開発した.本章ではその概要 を述べる.

#### 3.1 DIMMnet-1の概要

DIMMnet-1 は, PC100 または PC133 仕様の

表1 DIMMnet-1の主な仕様 Table 1 Basic specifications of DIMMnet-1.

| ホストとのインタフェース      | DIMM および PEMM                          |
|-------------------|----------------------------------------|
| NIC メモリ(大容量共有メモリ) | PC133, SO-DIMM2枚                       |
| 搭載可能 SO-DIMM 容量   | $64\mathrm{MB} \thicksim 1\mathrm{GB}$ |
| 低遅延共有メモリ(LLCM)容量  | 128 KB ( Martini LSI $\pm$ )           |
| 命令 SRAM 容量        | 128 KB ( Martini LSI $\pm$ )           |
| データ SRAM 容量       | 128 KB ( Martini LSI $\pm$ )           |
| オンチップ CPU         | R3000 風 32 bitRISC                     |
| 通信リンクバンド 幅        | 各方向 8 GBps ( 全二重 )                     |
| NIC メモリバンド 幅      | 1024 MB/s(ホスト側)                        |
|                   | $1024\mathrm{MB/s}$ (network 側)        |
| 最短送信時 NIC 遅延時間    | 105 ns ( DIMM ~ リンク )                  |
| 最短受信時 NIC 遅延時間    | 90 ns (リンク ~ LLCM )                    |
| NIC-LSI のテクノロジ    | $0.14\mu\mathrm{mCMOS}$                |
|                   |                                        |



図2 DIMMnet-1 の基本構造 Fig. 2 Basic structure of DIMMnet-1.

DIMM スロットに装着するネットワークインタフェー スである.DIMMnet-1の主な仕様を表1に,その基 本構造を図2に示す.後述する Martini LSI は低遅延 の FET バススイッチにより 2 個の SO-DIMM(ノー ト型 PC で用いられる汎用部品)を切り替えてホスト CPU とネットワーク間で共有される大容量な分散共 有メモリを構成し,リンクインタフェースとデータの 送受信をする.DIMM スロットの信号をじかに入力 する DIMM 型 NIC 制御ポートを有する.メモリバス 側のインタフェースは日本電子機械工業会規格の「プ ロセッサ搭載メモリ・モジュール(PEMM)動作仕様 標準」<sup>9)</sup>に準拠した. PEMM 規格準拠のチップセット やマザーボードは現状では存在しないので, PEMM 準拠モード以外にも, PEMM で追加された2つの信 号(メモリへのアクセスを待たせる信号と割込み信号) がなくても動作するモードの2つのモードを有する.

3.2 DIMMnet-1 の基板とスイッチ

DIMMnet-1 は表 2 に示される大別して 3 種類のス イッチおよび DIMMnet-1 どうしが接続可能である. それぞれのスイッチに合わせたインタフェースを搭載 する 3 種類の基板を想定しており,現在までに電気版 と光版各 1 種類の計 2 種類の DIMMnet-1 基板が作成 された.

電気版プロトタイプである DIMMnet-1/e(図3)の 基板は電気版の RHiNET-2/SW および OIP( Optical

| スイッチ    | RHiNET2 <sup>10)</sup>      | RHiNET3 <sup>11)</sup>       | $OIP-SW^{12}$               |  |
|---------|-----------------------------|------------------------------|-----------------------------|--|
| 光 port  | 8 (or 0)                    | 8                            | 15 (or 16)                  |  |
| 電気 port | 0 (or 8)                    | 0                            | 1 (or 0)                    |  |
| I/0ピン   | $800\mathrm{MBps}{\times}9$ | $1250\mathrm{MBps}{\times}8$ | $250\mathrm{MBps}{\times}9$ |  |
| バンド幅    | $8\mathrm{GBps}$            | $10\mathrm{GBps}$            | $2.5\mathrm{GBps}$          |  |
| 距離(光)   | $100\mathrm{m}$             | $1\mathrm{km}$               | $100 \mathrm{m}$            |  |
| 距離(電気)  | $3 \mathrm{m}$              | -                            | $5 \mathrm{m}$              |  |
| 再送制御    | N/A                         | OK                           | N/A                         |  |
| Table   | OK                          | OK                           | N/A                         |  |
| routing |                             |                              |                             |  |
| Source  | N/A                         | OK                           | OK                          |  |
| routing |                             |                              |                             |  |
| 開発元     | RWCP &                      | RWCP &                       | NEC &                       |  |
|         | 日立                          | 日立                           | RWCP                        |  |

表 2 DIMMnet-1に接続可能なスイッチの仕様 Table 2 Specification of switches for DIMMnet-1.



Fig. 3 DIMMnet-1/e.

IP)スイッチ<sup>12)</sup>と LVDS(Low Voltage Differential Signaling)レベルの電気信号を用いたケーブル接続により接続可能である.

光版プロトタイプである DIMMnet-1/o2(図4)の 基板は, RHiNET-2用の光インタフェースを搭載して おり, 光版の RHiNET-2/SW との接続が可能である.

## 3.3 Martini LSI

Martini LSI<sup>20</sup>は, PCI バスベースの RHiNET-2/NIと DIMM スロットベースの DIMMnet-1の機能 を1チップで実現する NIC 制御チップである.リモート DMA による通信のほかに, PIO(Programmed I/O) 通信の一種として低遅延性を最優先させた Atomic Onthe-fly(AOTF)通信や低遅延性と高バンド幅と柔軟 性を両立する Block On-the-fly(BOTF)通信の3種 類の送信方式をサポートしている.低遅延と高バンド幅 が要求される単純なデータ転送はハードウェアのみによ リサポートし,メッセージ交換の SEND/RECEIVE,



**⊠ 4** DIMMnet-1/o2 Fig. 4 DIMMnet-1/o2.



ロック,バリア,同期通信等の機能はチップ内に実装 されたコアプロセッサにより実現する.モジュール (Martini LSI内で独立制御されているブロック)単位 のパイプライン化と代行機能<sup>21)</sup>により,コアプロセッ サは,ハードウェアの一部を動作させながら,処理に 介入することが可能であり,柔軟なソフトウェア/ハー ドウェア処理分担が可能となっている.

3.4 パケットヘッダフォーマット

DIMMnet-1 の 32 bit アドレス版パケットのヘッダ フォーマットを図 5 に示す.DIMMnet-1 のパケッ トヘッダフォーマットは RHiNET のパケットヘッダ フォーマットと同一である.このほかに 64 bit アドレ スに対応したフォーマットも用意されている.なお, 送信側で BOTF を用い,受信側でコアプロセッサに よるソフトを介した受信を用いることにより,先頭の 10 バイト以降の領域も受信側アプリケーションで利

| NIC メモリ | _pmAlloc       | 割当て                 |
|---------|----------------|---------------------|
| 領域      | _pmFree        | 解放                  |
| NIC メモリ | _pMBank        | 状態を得る               |
| バンク     | _pmBLock       | ロック                 |
|         | $\_pmBRelease$ | ロックの解除              |
| AOTF    | _pmOpenA       | 書き込み口生成             |
|         | _pmMapA        | ヘッダシードの書き込み口への      |
|         |                | マッピングと HTLB         |
|         |                | ( Header TLB ) への登録 |
|         | _pmUnmapA      | 書き込み口のアンマッピングと      |
|         |                | HTLB からの削除          |
|         | _pmCloseA      | 書き込み口の閉鎖            |
| BOTF    | _pmOpenB       | 書き込み口生成             |
|         | _pmCreateB     | ヘッダシードの生成           |
|         | _pmCloseB      | 書き込み口の閉鎖            |

表3 PM-D APIの概要 Table 3 Summary of PM-D API.

#### 用できる柔軟性を有している.

3.5 API

DIMMnet-1 における Martini LSI 固有の機能 (AOTF 送信,BOTF 送信,パンク切替え,NIC メ モリ領域)を利用するための API である PM-D API の主な API を表 3 に示す.PM-D は PM API<sup>13)</sup>へ の機能拡張を意図して設計された.DMA 通信等その 他の機能はおおむね RHiNET 用 API に準拠し,それ らの上に PM API や MPI 等の上位レイヤを構築する 予定である.

#### 4. 提案アーキテクチャとその実装

4.1 MEMOnet

4.1.1 MEMOnet の定義と分類

MEMOnet とは筆者らによって 1999 年 8 月より提唱されている NIC のクラスである.従来のように PCI バス等の I/O バスに接続されるのではなく「主記憶 が搭載されるメモリスロットに接続される NIC」と定 義されている.

MEMOnet には基盤となる汎用パソコンの主記憶 の実装仕様で大きく分けて 3 つ(SIMM, DIMM, RIMM)が考えられる.SIMM(Single inline memory module)形式のものをSIMMnet, DIMM(Dual inline memory module)形式のものを DIMMnet, RIMM(Rambus inline memory module)形式のも のを RIMMnetと呼んでいる.MINI<sup>14</sup>はSIMMnet の一例, DIMMnet-1は DIMMnet の一例である.

DIMM の中には EDO (Enhanced data output) DRAM を用いたもの,SDR (Single Data Rate) SDRAM を用いたもの,DDR (Double Data Rate) SDRAM を用いたものなど種々のものが存在するが, DIMMnet もこれらに応じてに細分化できる.最初の プロトタイプである DIMMnet-1 は,現在最も普及し ている SDR-SDRAM ベースの DIMM スロットに搭 載される DIMMnet である.

4.1.2 MEMOnet における 2 ポート メモリ構造 MEMOnet はホスト側からは主記憶と同様なメモリ として見えている必要があり, ネットワーク側からも アクセス可能なメモリとして見えている必要がある. つまり, MEMOnet は本質的に 2 ポートメモリの機 能を内在することになる.

ネットワークのバンド幅が主記憶バンド幅に匹敵す る高さを持つ場合は,NIC メモリのホスト側バンド幅 とネットワーク側バンド幅は独立に提供されることが 望ましい . MINI<sup>14)</sup>や , さらに古くは Prodigy のホス トインタフェース<sup>15)</sup>のように画像用2ポートメモリを 用いて NIC メモリの独立 2 ポート化を実現した例も あるが,低コストでより高いバンド幅を実現するため に DIMMnet-1 ではダブルバッファ的制御がなされる 2 枚の SDRAM ベースの SO-DIMM により構成され る.このため, SRAM で実装された Myrinet の NIC メモリと比べて大容量化が容易であり,バンクを切り 替えた瞬間から,その直前まで受信領域だった NIC メモリの領域が,ネットワークから隔離されたホスト の主記憶に変化する.このため,NICメモリから主記 憶への受信データ書き戻しが必要だった Myrinet 等 のように 2.5 節において述べた NIC メモリへのアク セス集中の問題が緩和される.

さらに DIMMnet-1 では, Martini LSI 上に受信用 に低遅延共有メモリ(LLCM)という SRAM ベース の2ポートメモリを 128 KB 有しており, こちらはバ ンク切替えなしにホストとネットワークの双方からア クセスが可能である.LLCM も NIC メモリへのアク セス集中の問題を緩和する.

4.2 Block オンザフライ (BOTF)送信

Block On-the-fly(BOTF)送信は,後述するプロ テクション刻印ウィンドウに対してユーザモードで連 続して書き込まれる一連のデータに,プロテクション 情報を付加して,ネットワークに送信する低遅延で高 バンド幅な通信である.

ほとんどパケットそのものに近い状態でホスト CPU から NIC のハードウェアに渡されるので, NIC の回 路が簡素で済み,かつ少ないクロック数でネットワー クにパケットを出力できる.

さらに,この送信は NIC メモリへのアクセスをと もなわない実現が可能なために,2.5 節において述べ たメモリ NIC へのアクセス集中の問題が一段と緩和 する.



BOTF 送信機能は DIMMnet-1 のみならず, Martini LSI を用いた PCI バスベースの NIC である RHiNET-2/NI や RHiNET-3/NI でも利用可能であ る.

4.2.1 プロテクション刻印ウィンドウ

BOTF 送信におけるパケット生成メカニズムを図 6 に示す.図 6 中の window memory と protection stamp & check stage から構成されるプロテクショ ン刻印ウィンドウは,ユーザモードでコピーされる複 数ダブルワードにわたる一連の書き込みデータにプロ テクション情報を付加して,パケットに変換する機能 を有するメモリである.

プロテクション刻印ウィンドウは,複数の領域に 分割され,異なるウィンドウはそれぞれが物理アド レス上で異なるページにマップされている.こうし て\_pmOpenB()のような特権モードで実行される初 期化関数の中で,この物理ページは他のプロセスから 隔離されるように仮想空間にマップすることが可能と なる.DIMMnet-1の場合はMartini LSI上に図7で 示されるような512 バイトのウィンドウが64個実装 される.ウィンドウの一部はリモートDMA送信の際 の通信制御情報の通知にも利用され,最後の8 バイト は BOTF では用いることができない.

ウィンドウの物理アドレスとプロセスグループ ID (PGID)と呼ばれるプロテクション情報の対応関係を 保存する PGID テーブル(図6の Process Group ID Table)も 64 エントリ有する.

ステータスレジスタ(図6のwindow status register)はウィンドウへの上書き可否状態を示すビット (図6のwindow occupied flag)を有する.上書き可 能状態であるウィンドウ(図6のwindow x-b)上に, ホスト CPUより望ましくは連続的に仮想アドレス (図6のB\_push\_addr\_V)をインクリメントさせてパ ケットのイメージ(図6のLength, H-Seed, Data1, Data2)を書き込む.するとホスト CPUのTLB に





よって物理アドレス(図6のB\_push\_addr\_P)に変換される.さらに,ホスト CPUのライトバッファに よってバーストアクセスにまとめあげられて,目的の ウィンドウに高速にコピーされる.

このウィンドウ上に書き込まれたデータから BOTF 送信を起動することを BOTF キックと呼び, DIMMnet-1の場合はウィンドウの最後から2番目の ダブルワードに対応するアドレス(図7のBOTF kick address)に何かを書き込むことによって指示される.

よって,もし,ホスト CPU がデータをウィンドウ に途中までコピーしただけで,BOTF キックがなさ れる前にホスト CPU 上でプロセススイッチが行われ ても,途中までコピーされたデータはユーザごとに異 なる場所に保存されているので,切り換わったプロセ スによってそのデータが破壊され,複数プロセスから のパケットが混ざってしまうことが回避される.

BOTF キックが検知されると,該当するウィンド ウへの上書き可否状態を示すビット(図6のwindow occupied flagのb)が上書き不可能状態に変化する. さらにウィンドウ上に書かれたヘッダシードと呼ばれ るパケットヘッダ生成用のデータのPGIDフィールド (図5のpgid)に,ウィンドウに対応したPGIDが刻 印される.BOTFではヘッダシードがユーザモード で書き込まれるため,プロテクション上の理由から, ウィンドウ上に書かれたヘッダシード上のフラグ(図5 のmab1)が,物理アドレス指定になっていないこと をチェックする.

こうしてプロテクション情報が付加されて完成した ヘッダとウィンドウ上で後続するデータをウィンドウ の先頭ダブルワードに書き込まれたダブルワード数 (図6のLength)だけパケットとしてネットワークに 送信する.DIMMnet-1においては1回のBOTFキッ クによりヘッダ込みで496バイトまでのデータを運ぶ パケットを生成することが可能である. パケットのネットワークへの送信が終了するとス テータスレジスタの該当するウィンドウへの上書き可 否状態を示すビットが上書き可能状態に変化する.

4.2.2 ウィンドウへのバンド幅維持対策

BOTF 送信は細粒度通信の遅延時間の低下だけで なく,高バンド幅を実現することも目的に設計された 通信方式である.BOTF 送信はホスト CPUによるコ ピーに基づく一種の PIO(Programmed I/O)であ る.通常,PIOは DMA に比べ低バンド幅な通信方 式とされてきた.

しかし,最近の CPU はライトバッファの装備や CPU 動作周波数の高速化にともない,PIO による 連続アドレスへの書き込みが大変高速になってきてい る.CPU の動作周波数向上の凄まじい速さに対する I/O の進歩の鈍さから,従来のように PIO は低速で DMA は高速という常識が必ずしも成り立たないケー スがありうるようになってきた.ただし,何ら工夫し なくても PIO 性能が大幅に向上するわけではなく,ラ イトバッファやキャッシュ等の CPU のアーキテクチャ をふまえたうえで,それらを制御する命令を駆使する 等の主にソフトウェア的な対策を行うことによって高 いバンド幅を維持できる.具体的には,以下の対策が 有効であると考えており,その効果については 5.1.2 項で述べる.

• ダブルバッファリング

ウィンドウはコンテクストスイッチによる複数プロ セスからのデータの錯綜を防止するために FIFO で はなく,アドレッシング可能なメモリで構成されてい る.このため,BOTF キックを実行後にウィンドウ上 のデータがパケット化されてネットワークに出力し終 わるまでは、別のパケットのためのデータを同一ウィ ンドウに書くべきではない.よって,ウィンドウへの 書き込みフェーズと,ほぼそれと同様な時間を消費す るネットワークへの出力フェーズが存在するために, 1つのプロセスが1つのウィンドウにしか書き込めな い場合は実質的にはバンド幅が半減してしまう.そこ で,1つのプロセスが利用できるウィンドウは少なく とも 2 つ以上にして, CPU が書き込んでいるフェー ズのウィンドウと,BOTF 送信制御部がパケット化し てネットワークに送信しているフェーズのウィンドウ が別になるようにして用いることで,バンド幅の半減 を防止できる.

• 並列ステータス確認

さらに,ウィンドウが送信終了状態になり,上書き が可能になったかどうかを確認してからでないと,書 き込みフェーズに移るべきではないので,ホスト CPU からのステータスレジスタのチェックが必要になるが、 このチェックには非キャッシュ領域へのリードに必要 な時間が必要なので,これが実効バンド幅を低下させ る要因となる.そこで,望ましくは2個のウィンド ウをフル稼働の状態で用いるのではなく,それ以上の ウィンドウを1つのプロセスが利用できるようにする ことを推奨する.ステータスを1回読むときに並列し て複数のステータスビットを読み,先行してチェック したウィンドウが遊休状態であったならば,直前に書 いていたウィンドウが書き終わったら即座に,遊休状 態であることが確認できているウィンドウに書き込む という制御を行うことによって , 実効バンド幅を高め ることが可能である. DIMMnet-1 では 64 個すべて のウィンドウのステータスが1回のリードアクセスで 確認できるようになっているので,空きウィンドウが なくなるまでステータスチェックをしないことによっ てステータスチェックのオーバヘッドを減らせる.

### • Write combining

通常 I/O デバイスはホスト CPU から見て uncached (UC)属性にすることが多いが,ウィンドウを write combining (WC)属性の領域として設定することが 望ましい.write combining 属性の領域へのアクセス はキャッシングされず,ホスト CPU のライトバッファ によってバーストアクセス化される.これは Intelの Pentium Pro 以降の IA32 アーキテクチャに定義され ている領域の属性であり, MTRR と呼ばれるレジス タを操作することによって特定の領域を write combining 属性に設定することができる. Linux でもカー ネルのオプションを適切に設定することで,その操作 ができるようになっている.DIMMnet-1ではウィン ドウを write combining 属性に設定可能にするため に, uncached 属性に設定されるべきステータスレジ スタ等のその他の内部資源とは異なるページに物理ア ドレスが入るようにしている.

• 64 bit, 128 bit レジスタ

Athlon でも利用可能な MMX 命令で用いる 64 bit 幅のレジスタや, Pentium3の場合は SSE 命令セット で追加された 128 bit 幅のレジスタを PIO の際のデー 夕転送に用いることによって PIO 転送性能を向上さ せることができる.

• ループアンローリング

NIC への PIO 転送を行う際のデータ保持にレジス タを1個だけ使って,単純なループでブロックデータ を NIC にコピーするよりも,複数のレジスタを用い てそのループをアンローリングすることによって,バ ンド幅をいっそう向上することができる. Vol. 43 No. 4

### • プリフェッチ

送信するべきデータがキャッシュにはなく,主記憶 上にある場合は,実効バンド幅を向上させるためには, IntelのSSE命令セットやAMDの3DNow命令セッ トで追加されたPREFETCHNTA命令等を用いて, 主記憶へのリード遅延時間を隠蔽するようにすべきで ある.その際,プリフェッチのサイズと時期は主記憶 のリード遅延を考慮して,適切に選択されるべきであ る.なぜなら,必要以上に大量のデータをプリフェッ チしてしまうとソフトウェアパイプライニング時のプ ロローグ部分のオーバヘッドが大きくなるとともに, 後半でプリフェッチしたデータが前半でプリフェッチ したデータを追い出しかねないためである.書き出す 前にプリフェッチが終わっているだけの最小限なサイ ズと時期でプリフェッチをかけることが望まれる.

オンキャッシュ転送

送信すべきデータがキャッシュ上にない場合は,ま ずは主記憶上からレジスタに読み出し,次にそれを ウィンドウ上に書き出すことになる.この場合,主記 憶からの読み出しも,ウィンドウへの書き出しもホス ト CPUのFSB(Front side bus)やメモリバスのバ ンド幅を取り合う形になるので,継続的なバンド幅は 上限で FSB のバンド 幅の半分しか出すことができな いことになる.一方,並列処理を行っている状況では, 計算処理をデータに対して行い , その結果を必要とす るノードに送るという状況がごく自然に起こりうる. BOTF 送信では送信オーバヘッドは従来よりも少な いので,通信回数を増加させてでも,キャッシュ上に そのデータが残っているうちに送信をしてしまった方 がよいケースが想定できる.もし,キャッシュ上に送 るべきデータがあるならば , FSB バンド幅の半分を 使って CPU 内部に取り込む必要がないため, FSBの ほぼすべてのバンド幅を使ってウィンドウにデータを 書き出すことが可能となる.この方式では通信時期が 分散されることになるので,ネットワークの輻輳を低 減し、システム全体としての実効バンド幅はさらに向 上するものと思われる.

4.2.3 API とその動作

BOTF による送信における API とその動作を図 8 に示す.BOTF 送信に際しては,以下の手順で API を用いて起動される.

 \_pmOpenB() によりウィンドウやステータス レジスタを,ユーザモードでアクセスでき るように仮想アドレス B\_win\_addr\_V および B\_stat\_addr\_V と対応付ける.同時に上記仮想 アドレスから一意に決まるウィンドウに対応す



status = \_pmOpenB(B\_win\_addr\_V, B\_stat\_addr\_V);

(2) status = \_pmCreateB(B\_header\_addr\_V1, rank, command, datasize, r\_addr,...);
 (3) status = \*B\_stat\_addr\_V;

(4) bcopy(\*B\_header\_addr\_V1, empty\_win\_addr\_V, datasize);

(5) \*B\_kick\_addr\_V = dammydata; /\* A packet in the kicked sub window will be sent \*/

図8 BOTF 送信のための API の動作 Fig. 8 Behavior of API for BOTF sending.

る Martini LSI 上の PGID テーブルのエント

リにプロテクション情報(PGID)を設定する.

- (2) ヘッダの第 1 ダブルワードである routing header や, r\_pid や i\_pid 等のヘッダフィール ドを熟知していないユーザは\_pmCreateB() に より B\_header\_addr\_V から始まるユーザ空間 上の領域にヘッダシードを生成する.
- (3) ステータスレジスタ(B\_win\_addr\_V)をリードしてこれから書き込もうとしているウィンドウが使用中状態でないことを確認する.
- (4) 空き状態であれば、ヘッダシードと送信したい データをウィンドウ上にコピーする.
- (5) 最後にウィンドウの BOTF キックアドレス(先 頭から 496 バイト目)に書き込みを行う.
- (6) BOTF送信部により,ウィンドウ上のパケット イメージにユーザに対応するプロテクション情 報が刻印され,ネットワークに送信される.送 信が終了すると対応するウィンドウのステータ スが空き状態に更新される.

なお,同様な通信を繰り返す場合は上記の(1),(2) において下準備した結果を再利用すればよい.

4.2.4 BOTF の用途

BOTF 送信には低遅延,高バンド幅,情報の再利用 性,生成できるヘッダの柔軟性等種々の特徴がある. これらを生かす用途としては以下のようなものが考え られる.

細粒度な一貫性維持

ソフトウェア分散共有メモリの実装においては ページフォルトを利用してページレベルでの一貫 性維持を行うタイプ<sup>22)</sup>と、コードを事前に解析し てソフト的に作られるキャッシュの一貫性維持を 行うコードを挿入するタイプ<sup>23)</sup>がある.前者では 一貫性維持操作が指示されるまでの更新履歴であ る DIFFを用いて転送量を抑える実装が主流であ るが、その場合、ページの汚れ具合が少ないと転 送データが短くなり、低遅延な BOTFの効果が 期待できる.後者の場合では、より通信の粒度は 細かくなるので、BOTFによる低遅延通信の効 果がいっそう期待できる.

- 細粒度なメッセージのマルチキャスト 同一のデータを複数のノードに転送したい場合, BOTFを用いればウィンドウに書かれたパケッ トイメージを宛先だけ変更してキックすることに より,パケットヘッダや送信データの再利用が行 われる.ステータスチェックのオーバヘッドを考 慮して適切に用いることにより,一から BOTF を起動するよりもさらに低オーバヘッドで実現で きる.
- 低遅延な PULL 要求パケット生成 リモートノード上のメモリを読み出す PULL 要求 パケットは、ボディを持たないきわめて短いパケッ トである、その実装においてはたとえば、Martini LSI のハードウェアで実装された PULL プリミ ティブを用いるよりも、BOTF によってソフト的 に生成する方が高速であることが予想される、
- ソフト的拡張プロトコル用パケット生成 Martini LSIでは, PUSH と PULL の 2 種類の 操作のみ, すべてをハードウェアによって実行す るように設計されているが,その他のメッセージ交換やロック,バリア等の実装はリモート側で コアプロセッサに割込みをかけて,そのハンド ラによってソフト的に処理される.これらは上記 PULL 要求パケットのようにきわめて短いと同時 に,パケットフォーマットに対する自由度が要求 される.BOTF の場合は低オーバヘッドであると 同時に,ルーティング用ヘッダとプロテクション 情報(PGID)以外は新しい拡張プロトコル設計 者に自由に使わせることができるだけの自由度が ある.
- ブロック分割時の境界ラインの転送 たとえば、二次元配列を行および列方向にブロッ ク分割して各ノードに担当させる場合、隣接する ブロック間でブロックの境界部のデータを二重に 持って更新しあうことになる、その際、比較的短 い連続アドレスに格納されたデータを隣接ブロッ

クのメモリにコピーする必要があるが,そのよう な短いデータのパケットを BOTF は効率的に送 信することができる.

# 5. 予測性能

## 5.1 同時送受信継続バンド幅

DIMMnet-1 における BOTF 送信を用いた同時送 受信継続バンド幅を考察する.本論文では同時送受信 継続バンド幅とは「2つのノード間で互いにパケット を送りつつ受けるという動作を継続的に行った場合の 2 ノード間でやりとりされる情報のバンド幅(片方向 分で表示)」とする.DIMMnet-1の場合は前述のよう にパケットヘッダが柔軟であり,可変長である.そこ で本章では,まず1GHzのPentium3ベースパソコ ン上のPC133型DIMMスロットに搭載されたNIC のBOTF 送信方式そのものの限界を与えるヘッダ込 みの同時送受信継続バンド幅を実験に基づいて考察す る.次に,図5に示したRHiNET 互換の32ビット アドレシングモードの受信側ですべてをハード処理で きる通信を行うケースでのヘッダ(32バイト)を除い たデータのバンド幅について予測する.

5.1.1 同時送受信継続バンド幅の近似

DIMMnet-1 におけるヘッダ込みの同時送受信継続 バンド幅は送信側のホスト CPU によるコピー性能に よって近似できる.その理由を以下に列挙する.

- ウィンドウへの書き込みと吐き出しの並列動作 BOTF 送信を行う際,BOTF キックが実行され るまではウィンドウ上のデータは送信されない. ウィンドウ上に未送信データが残っている状態で は、そこに次の通信用のデータを上書きしてしま うと先行するパケットが破壊されてしまうので, 正しく動作しない.ここで,各プロセスがウィン ドウを1つしか占有できないとすると、ウィンド ウへの書き込みと、ウィンドウからの吐き出しが シリアライズされてしまい、バンド幅が半減する. しかし、DIMMnet-1では各プロセスがウィンド ウを2つ以上占有できるように運用することで, これを防止できる.よって、データをウィンドウ へ書き込んだときとほぼ同様のバンド幅でネット ワークへの吐き出しを行うことが可能である.
- 同時送受信時のデータ経路
  DIMMnet-1における同時送受信は図9に示すように,送信側でBOTF送信することで,TLB参照機能を有するパイプライン化された受信部と送信側の経路は互いにバンド幅を奪い合わないように1GB/sのデータ経路を構成できる.しかも,



図9 DIMMet-1にのりつ時送気信 Fig. 9 Simultaneous send & receive on DIMMnet-1.

通過するすべての経路で1GB/sクラスのバンド 幅を有し,前述のようにウィンドウにおけるバン ド幅低下も回避できるためハードウェア上のバン ド幅のボトルネックがない.よって,送信側での バンド幅は,同時送受信時の受信側でのバンド幅 と等しいことになる.

• ステータス確認遅延の隠蔽

Vol. 43 No. 4

実効バンド幅を制約する要因としては,ウィンド ウのステータスフラグの検査のためのソフトウェ アオーバヘッドが考えられる.DIMMnet-1では 1回のメモリアクセスで64個のウィンドウの状 態を読むことでができる.このため,1つのプロ セスが複数のウィンドウを用いている場合,1回 のメモリアクセスで複数の空きウィンドウを発見 できる可能性があり,ステータスチェックの回数 を減らし,実効バンド幅を高めることができる. BOTF での最大バンド幅は 64 個のウィンドウを 1つのプロセスに使わせる運用をした場合に実現 でき,64回に1回のステータスチェック後に連続 して 64 個のウィンドウにコピーできる.1回の ステータスチェックには uncached 領域のメモリ リード 遅延がかかり, これが 1 GHz の Pentium3 と VIA Pro266 の組合せで 109 ns であった . 504 バイトの書き込み(約500ns強)を64回行うごと に1回109nsのオーバヘッドが加わるが,0.3%の ロスでほぼ無視できる大きさと考えられる.

以上から,500 バイト程度のデータのウィンドウへ のコピーバンド幅は,DIMMnet-1でBOTFを用い, ウィンドウをたくさん使う運用形態で長いデータを2 ノード間で同時送受信する際のヘッダ込みの同時送受 信継続バンド幅の近似値として採用できる.この値は, ヘッダ長をきわめて短く設定した場合の同時送受信継 続バンド幅の近似値としても採用できる.

5.1.2 ウィンドウへのコピーバンド幅

4.2.2 項において述べたウィンドウへのコピーバン ド幅向上対策を行った場合の 512 バイト書き込みの

表4 ウィンドウへの 512 バイトコピーバンド幅 Table 4 Bandwidth for copying 512 Bytes.

|    | ソース   | 属性 | 命令           | loop | 他の技法     | MB/s |
|----|-------|----|--------------|------|----------|------|
| 1  | 32b   | UC | -            | -    | -        | 67   |
| 2  | reg.  |    | -            | -    | -        | 320  |
| 3  | 64b   |    |              | -    | -        | 549  |
| 4  | reg.  |    | Μ            |      | -        | 705  |
| 5  | main  |    | Μ            | 2 🛛  | -        | 233  |
| 6  | mem.  |    | Х            | 展開   | prefetch | 332  |
| 7  | cache | WC |              |      | on cache | 705  |
| 8  | 128b  |    |              | -    | -        | 964  |
| 9  | reg.  |    | $\mathbf{S}$ |      | -        | 1022 |
| 10 | main  |    | $\mathbf{S}$ | 2 🛛  | -        | 283  |
| 11 | mem.  |    | E            | 展開   | prefetch | 407  |
| 12 | cache |    |              |      | on cache | 1004 |

バンド 幅測定結果を表 4 に示す.表 4 中の UC は uncached 属性, WC は write combining 属性を表す. 本実験は内部周波数 1 GHz, FSB 周波数 133 MHz の Pentium3 と VIA 社 Apollo Pro266 チップセットと PC133 ベース SDR-DIMM を用いた PC 上で, OS と しては Linux を用いて測定した.

ここで,1 2は WC 属性の効果,2 3は MMX 命令(64 bit レジスタの使用)の効果,2 8は SSE 命令(128 bit レジスタの使用)の効果,3 4 および 8 9はループアンローリングの効果,5 6 および

10 11 はプリフェッチの効果,6 7 および 11 12 はオンキャッシュ転送の効果が判別でき,4.2.2 項の write combining 以降の項目で述べたソフト的なウィ ンドウへのコピーバンド幅向上対策はすべてにおいて 効果があったことが分かる.特に送信すべきデータが すべて CPU のレジスタ上にある場合は,1022 MB/s というきわめて高いバンド幅を実現できることが分 かった.

この速度は,ヘッダ分のロスを考慮しても,標準的 な32 bit33 MHzPCI 環境における従来の NIC のみな らず,現時点で最新の PC クラスタ向け NIC 製品であ る Myrinet2000 の単方向通信バンド幅 245 MB/s や, SCI PCI-64/66 の 200 MB/s と比べて圧倒的に高速 である.さらに SCI PCI-64/66 が同時送受信時の合 計で単方向の倍には程遠い 304 MB/s にしかならない のに対し,DIMMnet-1 の場合は送受信を同時に実行 しても上記のほぼ倍の合計バンド幅が得られる点で, これらの 64 bit66 MHz 版 PCI ベースの製品に比べて きわめて高速であるといえる.

送信すべきデータが CPU 側になく,メモリ上にあ る場合は大きなバンド 幅低下が発生する.これはメモ リからのリードと,メモリ上への書き出しが同時に発 生してバンド幅が半減し,さらにバス方向切換オーバ ヘッドも加わって性能低下しているものと思われる.

しかし,送信すべきデータがキャッシュ上にあるう ちに BOTF 送信をかけてしまえば,ソースデータが レジスタ上にある場合とほぼ同等レベルの高いバンド 幅(1004 MB/s)を出すことができることが分かる.

上記から,DIMMnet-1を用いたシステム用の並列 プログラム設計者およびコンパイラ設計者への指針と しては「従来のように送信を先延ばししてメッセージ 長を伸ばし,送信回数を減らすことを優先するよりも, 送信すべきデータがキャッシュに残っている早いタイ ミングで BOTF によりこまめにデータを送信してし まうことが性能向上の鍵となりうる」ということがい える.

5.1.3 メッセージ長と利用ウィンドウ数の影響

実際のパケットにはヘッダが含まれるので,ユーザ が送信したいメッセージのほかにヘッダを送信するた めにバンド幅が消費される.このため,パケット1個 あたりのメッセージ長が短くなるほどヘッダ転送にか かるオーバヘッドの影響が出る.

また,ユーザあたり利用可能なウィンドウメモリの 数が少なくなるほど,ウィンドウのステータスフラ グのチェックの頻度が上がるため実効バンド幅が低下 する.

上記の 2 つの効果を加味した DIMM 周波数 133 MHz で受信側をすべてハードで処理するタイプの 通信を行う場合の DIMMnet-1 の同時送受信継続バン ド幅の値は次の式で近似できる.ただし,ウィンドウ の数が1個になった場合はウィンドウへの書き込みと 吐き出しが逐次実行になるので下式の半分の値となる.

 $Bandwidth = \frac{L \times W}{0.109 + 0.038 + \frac{W \times (L+40)}{1022}}$ 

ここで L はパケットあたりのメッセージ長, W は 1 ユーザが利用可能なウィンドウ数である.ウィンドウ のステータスフラグのチェックのオーバヘッドは実測 結果 0.109  $\mu$ s を用いる.BOTF キックによる 1 ワー ドの書き込みにともなうバースト転送間のギャップと してはチップセット上でバースト長 4 が固定されてい るものとして 5 クロックサイクル分の 0.038  $\mu$ s を用 いる.図7 で示すように BOTF の転送サイズ指定(8 バイト)とヘッダ(32 バイト)とメッセージ(L バ イト)の合計 L + 40 バイトをホストのソフトにより 約 1022 MB/s でウィンドウにコピーできるという近 似を行った.実際のバンド幅は 8 バイトで割り切れな いメッセージ長の場合はこの式で表される曲線より若 干下方向に外れることになる.

上記の式をプロットすると図 10 のようになる.特



図 10 DIMMet-10 BOIF による同時区交信継続パノアト Fig. 10 Sustained simultaneous send & receive bandwidth on DIMMnet-1.

にメッセージサイズが短い領域では多くのウィンドウ を用いてステータスフラグのチェックのオーバヘッド を薄める効果がバンド幅に大きく出ることが分かる. 予測されたバンド幅は 50 バイト以下の短いメッセー ジにおいても, Myrinet2000 等の最新型の NIC 製品 が 10 KB を超えるような長いメッセージでしか近づ くことができない PCI バス型 NIC の同時送受信継続 実行時の理論的上限バンド幅を大幅に超える値を実現 できることが分かる.

5.2 DDR-DIMM への対応

長い間進歩が止まっていた PCI 等の I/O バスと異 なり, CPU の性能向上を追うように PC のメモリス ロットは急速な性能向上を続けている.DDR-SDRAM ベースの DIMM やそのマザーボードも,個人ユーザ が十分購入できるレベルに価格が低下している.さら に DDR-SDRAM ベースの DIMM スロットに対応す る Pentium4 用チップセットも開発が予定されている. よって今後は DDR-SDRAM ベースの DIMM スロッ ト搭載の PC が低価格 PC においても主流になってく ると思われる.

このような状況を背景に,将来,もし DIMMnetを DDR-SDRAMにも対応させるならば,利用可能なコ ストパフォーマンスの良い PCが増加するだけでなく, DIMMnet そのものの性能向上も期待できる.

内部周波数 1.33 GHz, FSB 周波数 266 MHz 換算 (133 MHz の DDR)の Athlon と ALi 社 MAGiK1 チップセットと PC2100 ベース DDR-DIMM を用い た PC上で,64 bit レジスタ上のデータを MMX 命令 セットにより 64 KB 分 Write Combining 属性のメモ リ領域にコピーするバンド幅として 1882 MB/s を観 測した.このことは DDR-DIMM に対応した DIMMnet をバンド幅ボトルネックを回避した DIMMnet-1 一方, Pentium3 ベースの PC では DDR-DIMM を 用いたとしても, ほとんど性能向上が見られなかっ た.その理由は FSB が 133 MHz の SDR 転送であ るために, バンド幅が FSB でボトルネックになるた めであると思われる.Pentium3 の FSB バンド幅の 上限は 1,064 MB/s であるのに対し, Pentium4 では 3,200 MB/s にまで改善され, FSB ネックが解消され ている.現時点では実験ができないが, DDR-DIMM に対応した Pentium4 ベースの PC が利用可能になれ ば, Intel の CPU を用いた PC 上でも大幅なバンド幅 向上が DIMMnet の DDR 対応により期待できる.

#### 6. ま と め

バンド幅の観点から従来型 NIC の問題点を明らか にし,その対策として MEMOnet と BOTF を提案 し, DIMMnet-1 プロトタイプにおいてはどのように 実装され,解決されているかを述べた.DIMMnet-1 では BOTF 送信を用いた場合,従来の NIC が苦手 としていた同時送受信継続実行において,1GHzの Pentium3のシステム上でヘッダ込みのバンド幅とし て各方向 1,022 MB/s, RHiNET 互換の 32 バイトヘッ ダを適用したヘッダ損失やステータスチェックオーバ ヘッドも考慮したバンド幅として各方向 937 MB/s と いう 32 bit 33 MHzPCI バス上で用いられる NIC の 10 倍以上の高速化が得られることが予測された.さらに DDR-DIMM に対応するならば 1.33 GHz の Athlon により1,882 MB/sにまで改善できる見通しを示した. 今後は, BOTF よりも低遅延性を重視して設計され た通信機構である AOTF の評価や, DIMMnet-1の 実機上での評価と、ソフトウェア環境の整備を進める 予定である.

謝辞 新情報処理開発機構の西氏,慶應義塾大学の 土屋氏,渡辺氏(株)日立 IT の今城氏,上嶋氏,金 野氏,寺川氏,慶光院氏,岩田氏,山本氏,柏原氏, 大杉氏をはじめ Martini LSI および DIMMnet-1 の開 発に携わったすべての方々に感謝いたします.

また,本研究は新情報処理開発機構が推進したRWC (Real World Computing)プロジェクトの並列分散 コンピューティング技術研究の一環として行われた.

#### 参考文献

- 1) Myricom Corp. http://www.myri.com/
- Dolphin Corp.: PCI-SCI Adapter Card D320/D321 Functional Overview, Part No.: D1950-10299 (1999.11).
- Fillo and Gillett: Architecture and Implementation of MEMORY CHANNEL 2, *Digital Technical Journal*, Vol.9 (1) (1997).
- Emulex Corp.: cLAN Hardware Installation Guide, Part No.: CLAN-D001-001
- 5) 住元,堀,手塚,原田,高橋,石川: GigaE PM II: Gigabit Ethernet による高速通信ライブラリ の設計,情報処理学会計算機アーキテクチャ研究 会, Vol.99, No.67, pp.61-66 (1999).
- 6) Kudoh, Nishimura, Yamamoto, Nishi, Tatebe and Amano: RHiNET: A network for high performance parallel processing using locally distributed computers, *IWIA*'99 (1999.11).
- (7) 田村,後藤, Sastry: 高速信号伝送技術
  Synfinity II, *FUJITSU*, Vol.50, No.4, pp.235–241 (1999).
- 8) InfiniBand Trade Association. http://www.infinibandta.org/
- 9) 日本電子機械工業会: 日本電子機械工業会規格
  : プロセッサ搭載メモリ・モジュール(PEMM)
  動作仕様標準, EIAJ ED-5514 (1998.7).
- 10) 西, 多昌, 西村, 山本, 工藤, 天野: LASN 用 8Gbps/port 8x8 One-chip スイッチ: RHiNET-2/SW, 2000 年記念並列処理シンポジウム (JSPP2000), pp.173-180 (2000.5).
- 11) 西,上野,多昌,稲沢,西村,工藤,天野:LASN 用 10Gbps/port 8x8 ネットワークスイッチ
   : RHiNET-3/SW,情報処理学会計算機アーキ テクチャ研究会, Vol.2000, No.110, pp.13–18 (2000)
- 12) Yoshikawa and Matsuoka: Optical Interconnections for Parallel and Distributed Computing, *Proc. IEEE*, Vol.88, No.6, pp.849–855 (2000).
- 13) Tezuka, Hori, Ishikawa and Sato: PM: An Operating System Coordinated High Performance Communication Library, *High Perfor*mance Computing and Networking'97 (1997).
- Minnich, Burns and Hady: The Memory Integrated Network Interface, *IEEE Micro*, Vol.15, No.1 (1995.2).
- 15) 田邊:マルチプロセッサシステム,公開特許公報,
  特願平 2-157491(出願 1990.6),特開平 4-48371
  (公開 1992.2).
- 16) 田邊,山本,工藤:メモリスロットに搭載され るネットワークインタフェース MEMnet,情報 処理学会計算機アーキテクチャ研究会, Vol.99, No.67, pp.73-78 (1999).

- 17) 田邊,山本,工藤: メモリスロット搭載型ネット ワークインタフェース DIMMnet-1 における細粒 度通信機構,情報処理学会計算機アーキテクチャ 研究会, Vol.2000, No.23, pp.65-70 (2000).
- 18) Tanabe, Yamamoto, Nishi, Kudoh, Hamada, Nakajo and Amano: MEMOnet: Network interface plugged into a memory slot, *IEEE In*ternational Conference on Cluster Computing (CLUSTER2000), pp.17–26 (2000.11).
- 19) Tanabe, Yamamoto, Nishi, Kudoh, Hamada, Nakajo and Amano: On-the-fly Sending: A Low Latency High Bandwidth Message Transfer Mechanism, 5th International Symposium on Parallel Architectures, Algorithms, and Networks (I-SPAN2000), pp.186–193 (2000.12).
- 20) 山本,田邊,西,土屋,渡辺,今城,上嶋,金 野,寺川,慶光院,工藤,天野:高速性と柔軟性 を併せ持つネットワークインタフェース用チップ : Martini,情報処理学会計算機アーキテクチャ 研究会, Vol.2000, No.110, pp.19-24 (2000).
- 21) 天野,山本,渡邊,土屋,金子,工藤:クラスタ コンピュータ用ネットワークインタフェースチッ プ Martini における代行処理機構,電子情報通信 学会技術報告 CPSY2001-54 (2001.10).
- 22) Keleher, P., Cox, A.L. and Zwaenepoel, W.: Lazy consistency for software distributed shared memory, *Proc. 19th ISCA*, pp.13–21 (1992).
- 23) Scales, D.J., Gharachorloo, K. and Thekkath, C.A.: Shasta: A Low Overhead, Software-Only Approach for Supporting Fine-Grain Shared Memory, ASPLOS'96 (1996.10).

(平成 13 年 9 月 7 日受付)(平成 14 年 2 月 13 日採録)



# 田邊 昇(正会員)

1985年横浜国立大学工学部卒業. 1987年同大学大学院工学研究科修 了.同年(株)東芝に入社.1998年 より2001年まで新情報処理開発機 構つくば研究センターに出向.並列

処理,並列アーキテクチャに関する研究に従事.現在, (株)東芝研究開発センター勤務.工学博士.電子情 報通信学会会員.



情報処理学会論文誌

山本 淳二(正会員)

1991 年慶應義塾大学理工学部卒 業.1997 年同大学大学院理工学研 究科博士課程単位取得退学.同年新 情報処理開発機構入社.2002 年よ リ(株)日立製作所・研究開発本部

に勤務.並列処理・ネットワークに関する研究に従事. 博士(工学).



#### 濱田 芳博

2001 年東京農工大学工学部卒業. 現在,同大学大学院工学研究科(前 期課程)在学中.電子情報工学専攻.



中條 拓伯(正会員) 1961年生まれ.1987年神戸大学 大学院工学研究科修了電子工学専攻. 1989年神戸大学工学部情報知能工学 科助手を経て,現在,東京農工大学 工学部情報コミュニケーション工学

科助教授.1998年より1年間イリノイ大学スーパコ ンピューティング研究開発センター(CSRD)にて客 員助教授.プロセッサアーキテクチャ,分散共有メモ リ,クラスタコンピューティングに関する研究に従事. 電子情報通信学会,IEEE-CS 各会員.博士(工学).



工藤 知宏(正会員)

1991年慶應義塾大学大学院理工学 研究科博士課程単位取得退学.東京 工科大学講師・助教授を経て,1997 年より新情報処理開発機構並列分散 システムアーキテクチャつくば研究

室室長.工学博士.並列処理 , 通信アーキテクチャに 関する研究に従事 .



天野 英晴(正会員)

1986年慶應義塾大学大学院理工 学研究科修了.工学博士.現在,同 大学情報工学科教授.計算機アーキ テクチャの研究に従事.