# ネットワークトラフィックの時間的局所性を利用した ブロードバンドネットワーク向けキャッシュ型パケット処理技術

| 奥 | 野 | 通 | 貴 <sup>†</sup> | 西 | 村 | 信 | 治†  |
|---|---|---|----------------|---|---|---|-----|
| 石 | 田 | 慎 | <u></u> ††     | 西 |   | 宏 | 章†† |

急速なネットワークのブロードバンド化にともない,2007年以降頃のバックボーンルータは回線あたり現在比10倍の100Gbps(Gigabit per second)のパケット処理スループットを大幅な消費電力の増加なしで実現することが求められる.筆者らは,ネットワークトラフィックで短時間に同一のヘッダを持つパケットが大量に出現することを利用するキャッシュ型パケット処理技術を提案した.本技術を用いるパケット処理エンジン(PPE)は,消費電力増加の原因となる内蔵プロセッサを増加させず,専用ハードウェア部にパケット処理履歴を記録し同一ヘッダを持つパケットに適用するProcess Learning Cache (PLC)と,PLCに未登録パケットの処理を行うCache-Miss Handler(CMH)を用いて高スループット化と低消費電力化を実現する.本稿では,キャッシュ型 PPEを実現する際の技術課題と対応策を示し,FPGAを用いた規模縮小版の試作,実トレースを利用した評価を示す.そして,キャッシュ型 PPE が 100 Gbps スループットを実現可能であることと,小規模プロセッサを多数搭載する従来型 PPE に比べ面積,消費電力ともに46%程度に削減できる見込みであることを示す.

### Cache-based Packet-processing Techniques for Broadband Network Exploiting Temporal Locality of Network Traffic

MICHITAKA OKUNO,<sup>†</sup> SHINJI NISHIMURA,<sup>†</sup> SHIN-ICHI ISHIDA<sup>††</sup> and HIROAKI NISHI<sup>††</sup>

The cache-based packet-processing enginge (PPE) that consists of Process-Learning Cache (PLC) and Cache-Miss Handler (CMH) is proposed to achieve 100-Gbps (Gigabit per second) wire-rate throughput which would be needed for backbone routers in 2007 or later to support broadband network. In this paper, several technical requirements and those solutions for cache-based PPE are shown. Also details of a prototype of the cache-based PPE are shown. By using real network traffic traces, we show the cache-based PPE can achieve the wire-rate throughput. As another aspect, PPEs are required low power consumption. In our estimation, the cache-based PPE can be constructed about 46% LSI-die size and power consumption of a conventional PPE.

1. はじめに

近年,数 10 Mbps 程度の安価な ADSL (Asymmetric Digital Subscriber Line)や FTTH (Fiber To The Home)がエンドユーザに普及し,基幹インフ ラにおいても従来の SONET に加え,低コスト大容量 通信可能なイーサネット<sup>1)</sup>が普及しつつある.このよ うにネットワーク全体のブロードバンド化が進行中で あり,1990 年の 10 Mbps 以降 4 年ごとに 10 倍の高速

† 日立製作所中央研究所 Central Research Laboratory, Hitachi, Ltd.

++ 慶應義塾大学理工学部 Faculty of Science and Technology, Keio University 化がなされてきたイーサネットにおいては,早ければ 2007年頃には100Gbps回線の登場が予測でき,基幹 インフラのハイエンドルータでの利用が期待される.

ここで,現在のハイエンドルータは 10 Gbps 回線 を 16 程度持ち,最大消費電力が 4 KW クラスに達 しているが<sup>2),3)</sup>,100 Gbps 回線を搭載する次世代装 置では,冷却や運用コスト面から消費電力を大幅に 上昇させられない.本稿では,特にルータの主要構 成要素であるパケット処理エンジン(PPE: Packet-Processing Engine)について,文献 4),5)で提案し たキャッシュの手法を利用して消費電力の増加を抑え

ネットワークプロセッサとも呼ばれる.

つつ 100 Gbps 回線処理を実現する方式の詳細につい て説明する.また,試作機による動作検証と実ネット ワークトラフィックにおいて本方式が実用可能である ことを示す.

2. 従来型のパケット処理エンジン

現在のハイエンドルータでは,10 Gbps から40 Gbps 程度のパケット処理スループットを持つ PPE が利用 されている.図1に従来型 PPEを模式化した構成を, また,表1に代表的なハイエンド PPEを示す<sup>2),6),7)</sup>.

PPE は,通常 64 byte から 1,518 byte のイーサフ レームもしくはパケットと呼ぶ単位で転送されるデー タを処理する.最小の 64 byte パケットを処理するの に与えられる時間は 10 Gbps イーサネットでは,わず か 67 ns である .パケットの解析,宛先検索,ヘッ ダ修正等のパケット処理をこの短時間で実現するため に,多くの PPE は多数の小規模プロセッサ(PU)を チップ内に集積し,処理を細分化してパイプライン処 理(X10q-w等)や,並列処理(SPP等),また両者の 併用(NP-1c等)によりスループットを確保している.

将来の 100 Gbps 処理に従来型 PPE で対応するに は,内蔵 PU 数を増加させて並列処理数を増やすか, 周波数向上が必要であるが,いずれも消費電力を比例 して増加させるため,代替策が必要となる.



Fig.1 Conventional packet processing engine.

| 表 1     | 代表的なハイエンド PPE |  |
|---------|---------------|--|
| T 1 1 C | 1 1 1 1 1 1   |  |

| Table 1 Li  | ist of high-end     | packet-processing                | engines. |
|-------------|---------------------|----------------------------------|----------|
| Product     | スループット              | プロセス (fab)                       | PU 数     |
| (Vendor)    | 周波数                 | 消費電力                             |          |
| SPP         | $40\mathrm{Gbps}$   | $0.13\mu\mathrm{m}$ (IBM)        | 188      |
| (Cisco 内製)  | $250 \mathrm{MHz}$  | 未公表                              |          |
| X10q-w      | $40\mathrm{Gbps}$   | $0.13\mu\mathrm{m}$ (TSMC)       | 200      |
| (Xelerated) | $200\mathrm{MHz}$   | $9.5 \mathrm{W} \mathrm{(typ)}$  |          |
| NP-1c       | $20\mathrm{Gbps}$   | $0.13\mu\mathrm{m}$ (IBM)        | 64       |
| (EZchip)    | $250 \mathrm{MHz}$  | 15  W (max)                      |          |
| IXP2800     | $10\mathrm{Gbps}$   | $0.13\mu\mathrm{m}$ (Intel)      | 16(128)  |
| (Intel)     | $1,400\mathrm{MHz}$ | $25.5 \mathrm{W} \mathrm{(typ)}$ | スレッド)    |

パケットの先頭に 8 byte のプリアンブル,パケット間に最低 12 byte のインターフレームギャップが入る.(64 + 8 + 12)/10 Gbps = 67.2 ns.

 ネットワークトラフィックの特性とその 利用

筆者らが注目しているのは,ネットワークトラフィッ クの特性を利用し内蔵プロセッサを増加させずに PPE のスループット向上を図る手法である.ネットワーク を流れるデータは複数のパケットの連なりとしてネッ トワークを通過するため, 文献 8), 9) でも示されるよ うに,短時間に同一ヘッダ を持つパケットが多数出 現しやすい.すなわち高い確率で時間的局所性が存在 するといえる . 筆者らも文献 4) においてネットワー クのコアからエッジに近いところまで代表的な4サイ トのトレースを調査した. 宛先 IP アドレスと送信元 IP アドレスのペアが同じパケットを同一ヘッダを持つ パケットと見なした場合,約4,000 エントリのキャッ シュメモリを利用すると, エッジ近くのサイトでは 98%以上の,またコアに近いサイトでも80%近いヒッ ト率が得られ,高い時間的局所性が存在していること をソフトウェアシミュレーションにより確認している.

時間的局所性の利用にはキャッシュが有効であり、 キャッシュメモリを利用して, PPE のボトルネック処 理である宛先検索処理において, 宛先 IP アドレスに 対応する次ホップ情報をキャッシュし,メモリ参照時 間の平均値を小さくして高速化,ひいてはスループッ ト向上を図るための研究がこれまでにも多数なされて きた.たとえば,ゲートウェイネットワークアドレス をフルアソシアティブキャッシュに蓄える手法<sup>10)</sup>, IP アドレスキャッシュ<sup>11)</sup>,通常のプロセッサのキャッシュ を利用する手法<sup>12),13)</sup> 等があげられる.ここで,ネッ トワーク上では多数のパケットがつねに流れ続けてい るため , 先行パケット処理がキャッシュミスを起こす と後続パケット処理がブロックされてしまい,最悪の 場合処理が間に合わず廃棄されてしまう.先にあげた いずれの手法も,初回のメモリ参照と2回目以降の キャッシュメモリ参照の処理を適切に行いパケット廃 棄を回避する手法が明示されていないため,高スルー プットを実現するために PPE にそのまま適用するの は困難である.そこで,筆者らが提案しているパケッ ト廃棄が起こらないようキャッシュ処理を適切に行い PPEのスループット向上を図る手法について説明し, 提案手法が実現可能であることを試作機により示す.

たとえば, 宛先 IP(Internet Protocol)アドレスと送信元 IP アドレスが同じヘッダを同一ヘッダと見なす.設定によってはさ らに多くの情報が一致している場合を同一ヘッダと見なす. 4. キャッシュ型パケット処理エンジン

ここでは,キャッシュの概念を利用した PPE をキャッ シュ型パケット処理エンジンと呼ぶ.

4.1 キャッシュ型 PPE 構成上の課題

キャッシュ型 PPE の課題は次の 3 点であり, それ ぞれについて対応策を示す.

- (1) 高スループット化可能であり,キャッシュ論理追加が内蔵プロセッサ数増加より十分小さいこと
- (2) キャッシュが十分高いヒット率を出せること
- (3) キャッシュ処理によるパケット廃棄をなくすこと4.2 高スループット化への対応策

高スループット部としてキャッシュメモリを備えた多 ビット幅の専用パイプラインハードウェア,低スルー プット部としてプログラム性のあるプロセッサ群を キャッシュ型 PPE の基本構成とする.そして,低ス ループット部で実施した検索結果,およびヘッダ修正 情報をデータおよび命令として,高スループット部の キャッシュメモリに記録し利用する.

ここで,キャッシュヒット率 をh,高スループット 部の最大スループットを th(high),低スループット部 の最大スループットを th(low)とする.高スループッ ト部がキャッシュヒットパケットを処理し,低スルー プット部が高スループット部の補助をするため,全体 の最大スループット th(max)は式(1)で表現できる.

 $th(max) \le th(high) * h + th(low) \tag{1}$ 

なお,すべてのパケットは高スループット部を通過 するため,th(max)の最大値はth(high)に制限され る.さらに,th(max) = th(high)とするためには,低 スループット部は式(1)から,th(high) \* (1 - h)以 上のth(low)が必要となる.

図2にキャッシュ型PPEの構成例(以後,P-Gear と呼ぶ)を示す.P-Gearは高スループット部にBSP (Burst Stream Path)と呼ぶパイプラインハードウェ ア,低スループット部にP-Engine (Programmable Engine)と呼ぶプロセッサ群を利用する.P-Engine は従来型 PPE に似た構成とし,並列処理によりス ループットを確保する.入力パケットはパケットメモ リ(PMEM)に格納し,パケットのヘッダ情報から トークンと呼ぶ内部情報を生成して処理を行う.トー クンの内容概略および,本試作でのbit 幅を表2に 示す.BSPは,上流から順に,入力パケット解析用 のA-Engine (Analysis Engine),キャッシュ処理用 の C-Engine (Cache Engine),出力パケット処理用



図 2 キャッシュ型パケット処理エンジン Fig. 2 Cache-based packet processing engine.

表 2 トークンの構成 Table 2 Token specification.

|               |                   | Ĩ                        |
|---------------|-------------------|--------------------------|
| 名称            | 詳細                |                          |
| U-Info        | $23\mathrm{bit}$  | (PMEM アドレス等)             |
| A-Info        | $12\mathrm{bit}$  | (レイヤ 2 , 3 , 4 ヘッダ解析情報 ) |
| E-Info        | $336\mathrm{bit}$ | (パケットヘッダ抽出情報)            |
| E'-Info       | $336\mathrm{bit}$ | (新規パケットヘッダ情報)            |
| P-Info        | $29\mathrm{bit}$  | (出力ポート,パケット修正情報等)        |
| U/A/E-Info    | $371\mathrm{bit}$ | A-Engine token           |
| U/A/E'/P-Info | $400\mathrm{bit}$ | R-Engine token           |

の R-Engine (Rebuilding Engine)と呼ぶ3つのブ ロックにより構成する.C-Engine は,P-Engine で実 施した処理を BSP だけで行うためのデータを記録す る Process Learning Cache (PLC)と,PLC にミス したトークンの処理および P-Engine へのスケジュー リングを行う Cache Miss Handler (CMH)により構 成する.筆者らは文献5)において0.13 $\mu$ m プロセス での PPE の面積と消費電力に関する見積りを行い, 従来型 PPE の PU 部は113.3 W,一方,20 Gbps 分 の PU を集積するキャッシュ型 PPE の消費電力は PU 部と BSP 部を合わせて27.8 W との結果を得た.こ れより,キャッシュ型 PPE は従来型 PPE の1/4 程 度(27.8 W/113.3 W)の消費電力で実現できる見通 しを得ている.

4.3 高キャッシュヒット率への対応策

+分な PLC ヒット率を確保するために PLC エン トリ数は多いほど良いが,実装可能な LSI 面積とのト レードオフの解消を図る必要がある.文献 4) に示す ように,4K 程度のエントリ数を目安として得た.ま た,PLC の同-エントリだけが利用されることを防 ぐため,トークンに CRC ハッシングをかけて PLC 上でのトークン格納位置を散らすことが有効である. さらに,PLC 登録の完了前に同-PLC ミスが発生し うるため,CMH に PLC ミストークンをフロー ご とに管理する CMT (Cache Miss Table)を設け,同 - PLC ミスは CMT の各エントリに対応する CMQ



Fig. 3 Structure of C-Engine.

(Cache Miss Queue)と呼ぶキュー群に保持し,つね にフローの先頭トークンのみ P-Engine にスケジュー リングし,同一フロートークン処理による P-Engine 資源の浪費を回避する.

4.4 キャッシュ処理起因のパケット廃棄回避策
 C-Engine の構成詳細を表 2 のトークンの流れを含め,図3に示す.C-Engine 起因によるパケット廃棄
 を防ぐためには次の4つの要求を満たせばよい.

- (1) PLC の帯域確保: PLC は A-Engine からの トークン参照要求と CMH からの更新要求を 賄える帯域が必要である.よって,トークン参 照要求は最短で2サイクルに1回とする.
- (2) PLC ヒットトークンの保持: C-Engine は R-Engine に対し, PLC ヒットパスと CMH 発 行パスを持つ.CMH が R-Engine にトークン発 行中も PLC 参照をやめないために, PLC ヒッ トトークンを保持するキュー(HTQ)を付加 する.
- (3) 十分な CMH 資源の確保: CMH 資源(CMT エントリ数, CMQ の深さ)が不足すると, CMHが PLC ミストークンを受信できず,後続トークンの PLC 参照をやめてしまう.理想的には, CMT エントリ数は, PU 数を N とした場合, 最大 N \* th(high)/th(low), CMQ 深さは最大N \* th(high)/th(low)となる.
- (4) P-Engine 資源の活用:式(1)中の th(low)のス ループットを最大限に引き出すため,P-Engine 内部の PU 群の並列処理が滞らないよう,P-Engine の入力部に待ち行列キュー(PEQ),出 力部に結果保持キュー(PRQ)を付加する.
  - 4.5 試作機概要 ゴ (1) が実現可能であることを実機検証:

規模縮小版のキャッシュ型 PPE を試作した.試作機に は,Xilinx 社の FPGA (Field Programmable Gate Array)である Virtex-II Pro を4チップ利用し,イ ンタフェースは Gigabit Ethernet 2本,最大スルー プットは2 Gbps とした.まず,P-Gear を構成する主 要プロックに関して概略を説明する.

- A-Engine:入力パケットを解析し,マイクロ コードによりパケットヘッダの必要部を抽出 してトークンを生成する.また,パケットをメ モリに格納する.設定により宛先 IP アドレス だけの抽出,送信元/宛先 IP アドレスの抽出, 5tuple 抽出等が可能である.
- C-Engine: PLC と CMH により構成し, A-(2)Engine から受信したトークンを R-Engine で パケット処理をするための処理済みトークン に置換する. PLC は, P-Engine の処理結果 E'/P-Info をデータ, A/E-Info をタグとし記録 する.A/E-InfoをCRC ハッシングして参照す る.PLC 既登録のフローは PLC 参照がヒット し, P-Engine をバイパスし R-Engine に処理 済みトークンを送信する.CMHは,PLC ミス トークンを処理する.異なるフローを管理する CMT は A/E-Info を,同一フローを管理する CMQ は U-Info を保持する.また, P-Engine 処理済みトークンで PLC を更新し,対応する CMT, CMQ に適用して R-Engine へ送信す る. CMH の CMT はフルアソシアティブメモ リが理想だが, FPGAの内部資源量を考慮し, 8way のフルアソシアティブメモリと CRC ハッ シングで参照する総計 1,024 エントリの 4way アソシアティブメモリを組み合わせた.
- (3) R-Engine: C-Engine から受信した処理済み トークンを参照してメモリから元のパケット を読み出し,処理済みトークンの指示でヘッダ の追加/置換/削除,アライン,部分修正を実施 しパケットを外部へ送信する.
- (4) P-Engine:本試作においては,P-Engineの BSPに対するスループットを可変にした評価を 行うために,P-Engineの各PUはC-Engineか ら受信したトークンを一定のルールに基づき変 換し,ディップスイッチにより設定した待機時 間ののちC-Engineに返信する擬似論理とした.

式(1)が実現可能であることを実機検証するため,

なお, 文献 4) の調査では, 同一トークンだけが恒常的に連続す る可能性は非常に少なく, CMQ 深さは 32 程度が目安となる.

Type: xc2vp70, Package: FF1517, Speed Grade: -6, 33088 slices, 66176 FFs, 5904 K block rams 送信元/宛先 IP アドレス, プロトコル,送信元/宛先ポートの 5 種類の情報

|              | *                                                                                       |
|--------------|-----------------------------------------------------------------------------------------|
| 項目           | 詳細                                                                                      |
| インタフェース      | 1 Gbps Ethernet x2                                                                      |
| 最大スループット     | $2\mathrm{Gbps}$                                                                        |
| コア動作周波数      | $33\mathrm{MHz}$                                                                        |
| PLC 構成       | 1 K entry x 4 way set associative                                                       |
|              | CRC hashing ( $\mathrm{X}^{10} + \mathrm{X}^7 + 1$ )                                    |
|              | LRU replacement                                                                         |
|              | 349 bit タグ, 365 bit データ                                                                 |
| PLC タグ容量     | $175\mathrm{K}$ by<br>te                                                                |
| PLC データ容量    | 183 K byte                                                                              |
| HTQ 容量       | $6.25\mathrm{K}$ byte ( $400\mathrm{bit}\times128\mathrm{depth}$ )                      |
| CMH's CMT 構成 | 256 entry x 4 way set associative                                                       |
|              | with 8 entry x full associative                                                         |
|              | CRC hashing ( $\mathrm{X}^{8} + \mathrm{X}^{6} + \mathrm{X}^{3} + \mathrm{X}^{2} + 1$ ) |
| CMH's CMT 容量 | $45\mathrm{K}$ byte ( $349\mathrm{bit}\times1,\!032$ entry )                            |
| CMH's CMQ 容量 | $92.7\mathrm{K}$ byte ( $23\mathrm{bit}\times1,\!032$ entry )                           |
| CMH's PEQ 容量 | $10.9\mathrm{K}$ byte ( $348\mathrm{bit}\times256\mathrm{depth}$ )                      |
| CMH's PRQ 容量 | $10.9\mathrm{K}$ byte ( $348\mathrm{bit}\times256\mathrm{depth}$ )                      |
| P-Engine     | 32 PUs (スループット調整可能)                                                                     |
| PMEM 本体構成    | $512\mathrm{K}$ byte ( $256\mathrm{Byte}\times2,\!048\mathrm{block}$ )                  |
| PMEM 管理部構成   | $7.25\mathrm{K}$ byte( $18\mathrm{bit} \times 2,048\mathrm{entry}\mathrm{mem}$          |
|              | $+11  \text{bit} \times 2.048  \text{depth queue}$                                      |

表 3 P-Gear 試作パラメータ Table 3 Spec of P-Gear testbed.

| P. Packet             | FPGA4                                                  | FPGA1            |
|-----------------------|--------------------------------------------------------|------------------|
| T: Taken              |                                                        | 9                |
| U: Undate Token       |                                                        | ∐ E O ₄Ŭ ·ŝ,     |
| A: PMEM address       |                                                        | [중년]ㅠ [윤]]       |
| PMEM: Packet Memory   |                                                        | ┝╯╶ <u>╶</u> ╴┟╷ |
| I WEW. I acket Memory |                                                        | للكرك            |
| x2                    |                                                        |                  |
| P Icr                 |                                                        | ▶ 줆 뚝 렸          |
| E <del>▲ ▶</del>      | $\mathbf{A} = \mathbf{A} - \mathbf{Engine} \mathbf{A}$ | - 2 2 3 1        |
| → → → gi              |                                                        |                  |
| ga                    |                                                        |                  |
| 5                     | FPGA3                                                  | FPGA2            |
| 図 1 档                 | 能プロック配置相                                               | 構成               |

Fig. 4 Functional block map.



図 5 P-Gear 試作基板 Fig.5 P-Gear testbed board.

表 3 に試作機の諸元,図4 に P-Gear の各機能ブ ロックの FPGA への割当て,図5 に試作機基板,表4 に FPGA の主要内部資源の利用率をそれぞれ示す.

| 表 4  | FPGA | 1 主要内 | ]部資源利用率 |  |
|------|------|-------|---------|--|
| <br> |      |       |         |  |

| 機能              |       | 内部資源利用率 |     |
|-----------------|-------|---------|-----|
|                 | SLICE | LUT     | RAM |
| BSPIF, A-Engine | 65%   | 54%     | 18% |
| PLC             | 19%   | 10%     | 56% |
| CMH & P-Engine  | 42%   | 33%     | 47% |
| PMEM, R-Engine  | 6%    | 5%      | 72% |

#### 5.評価

## 5.1 パケットジェネレータによる予備評価

5.1.1 予備評価条件

IXIA 社のパケットジェネレータ IxExplorer IxOS v3.65 で,表5 に示すキャッシュヒット率を作為的に 調整した6 種類の IPv4 イーサネットトレース<sup>1</sup>を試 作機へ入力し,P-Engine 性能を変化させながらキャッ シュヒット率とパケット通過率を測定し,従来型 PPE に対するキャッシュ型 PPE 性能に関し考察した.各 トレースは PLC の全エントリ(4,096)を総入れ換え できるよう 16,000 種類のフローで構成した.パケッ ト長は,PPE の処理負荷が最高となる最小イーサパ ケット長(64 byte)および,現実のインターネットト ラフィックに見られるパケット長構成に似た比率のイ ンターネットミックス(IMIX)<sup>2</sup>とし,約10秒間ず つ計測を行った<sup>3</sup>.

#### 5.1.2 予備評価結果

最小パケット長での PLC ヒット率 <sup>4</sup>を白抜きラベ ルで,また,PLC ヒット率および CMH ヒット率 <sup>5</sup>を 合わせた C-Engine 全体のキャッシュヒット率(以下, 単にキャッシュヒット率と呼ぶ)を黒塗りラベルで図 6 に示す.また,パケットの通過率を図 7 に示す.横軸 はいずれも搭載する P-Engine の BSP に対する相対 スループットを示す.PLC off のラインは CMH 機能 と PLC への登録機能を無効化した場合の trace A の パケット通過率で,P-Engine だけのスループット,す なわち従来型 PPE の場合のスループットに相当する.

- <sup>3</sup> 64 byte 長で約 30 M パケット , IMIX で約 6.7 M パケット
- <sup>4</sup> (PLC にトークンが登録トークンがあった数)/(受信パケット 数)
- <sup>5</sup> (PLC 未登録かつ, CMH の CMT に登録トークンがあった 数)/(受信パケット数)

<sup>&</sup>lt;sup>1</sup> たとえば trace A は,送受信 IP アドレスのホスト部または ネットワークアドレス部を一定の割合で変化させたパケット 50 個を 3 回繰り返し流し,次に IP アドレスが完全にランダムな パケット 50 個を流す.これを 80 セット分用意したトレース である.

<sup>&</sup>lt;sup>2</sup> パケット長の出現率は 64 byte : 570 byte : 1,518 byte = 7:4:1

表 5 利用トレース Table 5 traces for IxExplorer.

|         | 1                                                               |              |
|---------|-----------------------------------------------------------------|--------------|
| トレース名   | 内容                                                              | hit <b>率</b> |
| trace A | 80 pairs of<br>( $50~\mathrm{random},50~\mathrm{fix}\times19$ ) | 90%          |
| trace B | 80 pairs of<br>( 50 random, 50 fix $\times 9$ )                 | 80%          |
| trace C | 80 pairs of<br>( 50 random, 50 fix $\times 6$ )                 | 71.4%        |
| trace D | 80 pairs of ( 50 random, 50 fix $\times 4$ )                    | 60%          |
| trace E | 80 pairs of<br>( $50~\mathrm{random},50~\mathrm{fix}\times3$ )  | 50%          |
| random  | random trace                                                    | 0%           |



図 6 64 byte パケットキャッシュヒット率 Fig. 6 64 byte packet cache hit rate.



Fig. 7 64 byte packet passing rate.

図 6 より, P-Engine の対 BSP スループットが低 い領域では, PLC ヒット率がトレース本来のキャッ シュヒット率より低く、CMHの存在によりキャッシュ ヒット率を向上できていることが確認できる.また, P-Engine の対 BSP スループットが 10%~40%の低 い領域では, trace B, C, D, Eのキャッシュヒット率 が著しく低下している.これは, P-Engineのスルー プットが不足して後続パケットの PLC 参照がブロッ クされた結果,パケットロスが発生したためと考えら れる.図7のtrace A, B, Cより, キャッシュミス 分を補う以上の対 BSP スループットを持つ P-Engine を搭載することで,式(1)を満たす最大の th(max), すなわちパケット通過率1を実現できることが確認で きた.このとき,従来型 PPE より少ない P-Engine ス ループットで目標のパケット通過率を達成できること が分かる.なお,traceD,E,randomではP-Engine の対 BSP スループットが十分高い領域でもパケット ロスが発生している.これは, CMH の CMT エント



図 8 IMIX パケットキャッシュヒット率 Fig. 8 IMIX packet cache hit rate.



図 9 IMIX パケット通過率 Fig. 9 IMIX packet passing rate.

リ競合により, CMH が PLC ミストークンを受信で きなくなった結果, PLC 参照をプロックされてパケッ トロスが発生したためと考えられる.

また,パケット長を IMIX に変えて同様の評価を 行った結果を図8,図9に示す.図8より,IMIX で は P-Engine の対 BSP スループットが小さい範囲で も PLC ヒット率は,トレース本来のキャッシュヒッ ト率に近い価を示している.これは,平均パケット長 が 354 byte の IMIX では,最小パケット長の場合に 比べ,パケット受信間隔が約4.4 倍長く,次のパケッ トを受信するときにはすでに PLC に当該トークン情 報が記録されているためと考えられる.

また,図9より,CMHのトークン受信間隔も4.4 倍長いため,図7で観測された P-Engineの対BSP スループットが高い領域でのパケットロスも発生せず, 50%以上のヒット率のトレースでは,P-Engineの対 BSP スループットが15%以上の領域でパケット通過 率1を達成できている.

5.2 実トレースによる評価

5.2.1 実トレース評価条件

ここでは,キャッシュ型 PPE が実ネットワーク上 で利用できることを示すために,表6に示す3サイ トで採取されたパケットトレースを使ってキャッシュ ヒット率,パケット通過率を評価し考察した.WIDE,

(354 + 8 + 12)/(64 + 8 + 12) = 4.45

1.019 byte

742 byte

|    |         | Table 6 Site list.          |                   |     |
|----|---------|-----------------------------|-------------------|-----|
|    | KEY     | SITE                        | bps               |     |
|    | WIDE    | WIDE trans-Pacific line B   | $100{ m M}$       |     |
|    | A-IV    | Univ. of Auckland uplink    | $155\mathrm{M}$   |     |
|    | IPLS    | Abilene Indianapolis router | $2.5\mathrm{G}$   |     |
|    |         |                             |                   |     |
| KE | Y FV    | ース名                         | ave. leng         | th  |
| WI | DE 2003 | $30227\{1600, 1615\}$       | $520 \mathrm{by}$ | /te |

表 6 トレース採取サイト一覧

IPLS IPLS-KSCY-20020814-100000-{0,1} WIDE: http://tracer.csl.sony.co.jp/mawi/

20010327-010000-1

A-IV: http://wand.cs.waikato.ac.nz/wand/wits/auck/4/ IPLS: http://pma.nlanr.net/PMA/



図 10 最小パケット長での実トレースキャッシュヒット率 Fig. 10 minimum length packet cache hit rate (real trace).



図 11 最小バケット長での実トレースパケット通過率 Fig. 11 minimum length packet passing rate (real trace).

IPLS はコア網近く, A-IV はアクセス網もしくはミ ドルマイル網と考えられる.表6 に回線速度と採取ト レースの平均パケット長を示す.今回,試作機に対し ワイヤレートで採取トレースを入力する手段がなかっ たため,試作機の Verilog-HDL コードを NC-Verilog シミュレータ上で動作させ,各200,000 パケットを最 小インターフレームギャップ(12 byte)間隔で与え評 価した.パケット長は,実パケット長と処理負荷を高 めるために最小長両方を利用した.

5.2.2 実トレース評価結果と消費電力を含めた考察 図 10 に最小パケット長での PLC ヒット率を白抜 きラベルで, C-Engine 全体のキャッシュヒット率を 黒塗りラベルで,またパケット通過率を図 11 に示す. 実パケット長での同様の評価結果を図 12,図 13 に







図 13 実パケット長での実トレースパケット通過率 Fig. 13 real length packet passing rate (real trace).

### 示す.PLC offの評価には平均パケット長が3サイト の中で最短の WIDE トレースを用いた.

図 10,12 から, A-IV, IPLS, WIDE のキャッシュ ヒット率はそれぞれ 95.2%, 71.5%, 66.0% であり, コ ア網に近い WIDE でもトラフィックに時間的局所性 があることが分かる.図11から,最も処理負荷の高い 最小パケット長の場合でもキャッシュミス率分を補う, 対 BSP スループットがそれぞれ 10%, 30%, 40%以 上の P-Engine の利用によりパケット通過率1を達成 できることを確認した.なお,従来型 PPE の場合は, 予備評価同様,対回線速度比が100%のP-Engineが 必要である.また,実パケット長を利用した図13から は, P-Engine は, 10%程度の最小パケット長ケース 時と比較して少ない対 BSP スループットで十分であ るが,十分なヘッドルームを残す意味では,40%の対 BSP スループットを確保したほうが良いと考える.つ まり, 100 Gbps の PPE を構成するには 40 Gbps 相 当の P-Engine を集積する.

筆者らは文献 5) において,0.13 µm プロセスに おける処理スループット 1,2.5,10,20,40,80, 100 Gbps のキャッシュ型 PPE (ただし 100 Gbps 時 の集積 PU は 20 Gbps 分)と従来型 PPE の面積 と消費電力の見積りを行った.そして,100 Gbps 用 BSP は 31.0 mm<sup>2</sup>,5.18 W, PU は 20 Gbps あた り 110.15 mm<sup>2</sup>,22.66 W との価を得た.これより, 40 Gbps の PU を集積する 100 Gbps キャッシュ型

A-IV

PPEは250.52 mm<sup>2</sup>,51.7W程度であり,100 Gbps の従来型 PPE(550 mm<sup>2</sup>,113.3W)の46%程度の 面積,消費電力で効率良く実現できる見通しである.

6. おわりに

ネットワークトラフィックに存在する時間的局所性 を活用し,低スループットのプロセッサ部と高スルー プットのキャッシュメモリ搭載ハードウェアを組み合 わせたキャッシュ型パケット処理エンジン(PPE)の 技術課題と対応策を示し,試作,評価を行った.特に 実トレースを用いた評価により,100 Gbps スループッ トのキャッシュ型 PPE を構成する場合,現在の技術 で実現可能な10 Gbps ~40 Gbps 程度のプロセッサ部 を集積することで100 Gbps スループットを達成可能 であり,40 Gbps のプロセッサ部を集積する場合には 従来型 PPE に比べて面積,消費電力ともに46%程度 以下に削減できる可能性を示した.

キャッシュ型 PPEは, ブロードバンド化するネット ワークを支えるために高スループット,低消費電力を 要求されるバックボーンルータでの利用が期待できる.

謝辞 本研究の一部は(独)情報通信研究機構の委 託研究「テラビット級スーパーネットワークの研究開 発」の一環として実施された.

### 参考文献

- 1) IEEE802.3\_task\_force. http://grouper.ieee.org/ groups/802/3/10G\_study/public
- 2) Cisco. http://www.cisco.com
- 3) Hitachi. http://www.hitachi.co.jp
- 4) Okuno, M. and Nishi, H.: Network Processor Accelerator Using Temporal Locality of Traffic (in Japanese), *IPSJ Trans. Advanced Comput*ing System, Vol.45, No.SIG 6, pp.45–53 (2004).
- 5) Okuno, M., Ishida, S. and Nishi, H.: Low-Power Network-Packet-Processing Architecture Using Process-Learning Cache for High-End Backbone Router, *IEICE Trans. ELECTRON.*, Vol.E88-C, pp.536–543 (2005).
- 6) Xelerated. http://www.xelerated.com
- Gwennap, L. and Wheeler, B.: A Guide to NETWORK PROCESSORS Fifth Edition, The Linley Group (2003).
- Jain, R.: Characteristics of Destination Address Locality in Computer Networks: A

利用する ASIC 種やプロセスルールにより面積,消費電力は 変化するが,キャッシュ型 PPE と従来型 PPE の相対的な価 は大きく変わらないと考える.なお,P-Engine に利用するプ ロセッサ群のうち未使用プロセッサへの電力供給を止めるなど してさらなる消費電力削減も可能である. Comparison of Caching Schemes, *Computer Networks and ISDN Systems*, Vol.18, pp.243–254 (1990).

- 9) Chvets, I. and MacGregor, M.: Multi-zone Caches for Accelerating IP Routing Table Lookups, *High Performance Switching and Routing (HPSR 2002)*, pp.121–126 (2002).
- Feldmeier, D.: Improving Gateway Performance with a Routing Table Cache, *INFOCOM'88*, pp.298–307 (1988).
- 11) Talbot, B., Sherwood, T. and Lin, B.: IP Caching for Terabit Speed Routers, *Global Communications Conference* (*Globecom'99*), Vol.2, pp.1565–1569 (1999).
- 12) Chiueh, T.C. and Pradhan, P.: High-Performance IP Routing Table Lookup Using CPU Caching, *INFOCOM'99*, pp.1421–1428 (1999).
- 13) Chiueh, T.C. and Pradhan, P.: Cache Memory Design for Network Processors, *IEEE High Performance Computer Architecture Conference* (HPCA 2000) (2000).

(平成 17 年 5 月 9 日受付)(平成 17 年 11 月 1 日採録)



奥野 通貴

西村 信治

1998 年慶應義塾大学大学院理工 学研究科修士課程修了.(株)日立 製作所中央研究所勤務.スイッチ・ ルータアーキテクチャ,ハードウェ アの研究開発に従事.

1991 年東京大学大学院工学研究

科修士課程修了 .(株)日立製作所

中央研究所勤務.ネットワークシス

テムの研究に従事,主任研究員,工





#### 石田 慎一

学博士.

2005 年慶應義塾大学理工学部卒 業.現在,同大学院修士課程在席.イ ンターネットアーキテクチャ,コン ピュータネットワークの研究に従事.



西 宏章(正会員) 1999年慶應義塾大学大学院理工学 研究科後期博士課程修了.同年技術 研究組合新情報処理開発機構,2002 年(株)日立製作所中央研究所,2003 年慶應義塾大学理工学部システムデ

ザイン工学科助手,工学博士.