# チップマルチプロセッサ上でのMPEG2エンコードの並列処理

| 小 | 高 |   | 剛 <sup>†,</sup> | 中 | 野 | 啓 | 史† |
|---|---|---|-----------------|---|---|---|----|
| 木 | 村 | 啓 | <u> </u>        | 笠 | 原 | 博 | 徳† |

PC, PDA,携帯電話などで静止画像,動画像,音声などを扱うマルチメディアアプリケーション を利用する機会が近年ますます増えている.このためマルチメディアアプリケーションを効率良く処 理できる低コスト,低消費電力かつ高パフォーマンスなプロセッサの必要性が増している.このよう な要求を満たすプロセッサアーキテクチャの1つとして複数のプロセッサコアを1チップ上に搭載し たチップマルチプロセッサアーキテクチャが注目されている.しかしながら,チップマルチプロセッ サアーキテクチャで効率の良い処理を行うには,アプリケーションの特性を解析し,並列性を抽出し, 生成したタスクをバランス良くプロセッサに配置するなどのチップマルチプロセッサ用最適化が必要 となる.また,近年のメモリウォール問題の深刻化により,プログラムの持つデータローカリティの 有効利用やデータ転送オーバヘッドの削減などの最適化技術も効果的な並列処理のために必須となっ ている.本論文では,MPEG2エンコードに対する,チップマルチプロセッサ上でのメモリ利用最適 化およびデータ転送最適化手法からなる並列処理手法の提案を行うとともに, OSCAR チップマル チプロセッサ上での性能評価を行う.性能評価の結果,データローカリティの利用およびデータ転送 オーバヘッド隠蔽手法からなる提案手法を適用した MPEG2 エンコードは,動作周波数 400 MHz 時 で逐次実行に対し,1プロセッサ利用時1.24倍,2プロセッサ利用時2.46倍,4プロセッサ利用時 4.57 倍,8 プロセッサ利用時 7.97 倍,動作周波数 2.8 GHz 時で逐次実行に対し,1 プロセッサ利用 時 1.36 倍, 2 プロセッサ利用時 2.61 倍, 4 プロセッサ利用時 4.46 倍, 8 プロセッサ利用時 6.54 倍 の速度向上率の速度向上率が得られることが確認できた.

## Parallel Processing of MPEG2 Encoding on a Chip Multiprocessor Architecture

#### TAKESHI KODAKA,<sup>†,</sup> HIROFUMI NAKANO,<sup>†</sup> KEIJI KIMURA<sup>†</sup> and HIRONORI KASAHARA<sup>†</sup>

With the popularization of multimedia applications like image and audio processing on PCs, mobile phones and PDAs, development of low cost, low power consumption and high performance processors for multimedia applications has been expected. To this end, chip multiprocessor architectures that allows us to exploit multi-grain parallelism such as coarse grain level parallelism, loop level parallelism and instruction level parallelism have been extensively researched. However, to realize efficient parallel processing on chip multiprocessor architectures, sophisticated techniques are required for decomposition of a program into adequate grain of tasks, analysis of parallelism and scheduling of the tasks onto processors considering data locality. This paper describes a parallel processing scheme for MPEG2 encoding using data localization which optimizes execution efficiency assigning coarse grain tasks accessing the same array data on the same processor consecutively on a chip multiprocessor and data transfer overlapping technique which minimize the data transfer overhead by overlapping task execution and data transfer. Performance of the proposed scheme is also evaluated. As the evaluation result on an OSCAR chip multiprocessor architecture, when the clock frequency is assumed as 400 MHz, the proposed scheme gave us 1.24 times speedup for 1 processor, 2.47 times speedup for 2 processors, 4.57 times speedup for 4 processors and 7.97 times speedup for 8 processors against sequential execution without the proposed scheme respectively. Similarly, when 2.8 GHz, the proposed scheme gave us 1.36 times speedup for 1 processor, 2.61 times speedup for 2 processors, 4.46 times speedup for 4 processors and 6.54 times speedup for 8 processors against sequential execution without the proposed scheme respectively.

 † 早稲田大学コンピュータ・ネットワーク工学科
 Department of Computer Science, School of Science and Engineering, Waseda University
 現在,株式会社東芝
 Presently with TOSHIBA Corporation 1. はじめに

近年,ディジタル TV や DVD プレーヤ,ディジタル ビデオカメラなどのディジタル情報機器では,マルチ メディア処理が重要なアプリケーションの1つとなっ

ている、そのため、マルチメディアアプリケーション を効率的に処理できるデバイスの開発が求められてい る.これらのデバイスは操作の快適性や高品質の要求 などから高パフォーマンスであることに加え,低コス ト,低消費電力であることも望まれている.これらの 要求を満たすために従来は, ハードウェアによって処 理されるマルチメディア処理専用のアクセラレータが 用いられてきた.ハードウェアによるマルチメディア 処理では,そのアプリケーション専用に作られている ため処理速度が非常に速く,消費電力も低く抑えるこ とができる.ただし,新しい規格への対応では,ハー ドウェアを設計しなおす必要があるため開発コストが 大きくなってしまう.近年のメディア処理は,規格が 多様化しており,対応すべきアプリケーション数の増 大や,開発期間もコスト削減のために短縮傾向にある. そのため、メディア処理用のデバイスは、ソフトウェ アの書き換えにより柔軟な対応ができる汎用プロセッ サや FPGA, DRP (Dynamic Reconfigurable Processor)など,プログラマブルなものの利用が期待さ  $hTN3^{1)^{-3}}$ .

従来のプロセッサアーキテクチャ上でのマルチメディ ア処理は,パイプライン化やスーパスカラ命令発行, マルチメディア拡張命令セットなどの SIMD 命令の追 加,VLIW などを用いて演算の高速化を行ってきた. しかし,これらの高速化手法は,主に命令レベル並列 性を利用しているため命令レベル並列性の限界<sup>4)</sup>によ り,プログラムに存在する命令レベルよりさらに粒度 の大きな並列処理粒度を利用することが今後の課題と してあげられている<sup>5)</sup>.

命令レベルよりさらに大きな並列処理粒度を利用 し,トランジスタ集積度向上に対しスケーラブルな性 能向上を得るアーキテクチャとしてマルチスレッドや チップマルチプロセッサが次世代プロセッサアーキテ クチャとして注目されている.特に,複数の CPU コ アを持つチップマルチプロセッサアーキテクチャは, 並列性の大きいサブルーチン,ループブロック間の粗 粒度タスクレベルの並列性や,イタレーションレベル の並列性に加え,より小さな並列処理粒度のステート メントレベルの近細粒度並列性の利用が可能であり, さまざまな粒度の並列性を柔軟に利用したパフォーマ ンス向上が行える.そのため,今後のチップ内半導体 集積度の向上に対しスケーラブルな性能向上が行え るアーキテクチャであると期待されている.たとえば Stanford 大学で研究されている Hydra は, ほぼ同数 のトランジスタ規模であるスーパスカラアーキテク チャや Simultaneous Multithreading (SMT)アー

キテクチャより高いパフォーマンスが得られている<sup>6)</sup>. また,従来のスーパスカラやアウトオブオーダなどを 利用したプロセッサでは性能向上のためには高速化す るハードウェアを開発しなければならないのに対し, チップマルチプロセッサはプロセッサコア数を増やす ことにより性能向上を得られるアーキテクチャのため, ハードウェア設計の再利用により開発コストが削減さ れるので費用対効果の高いアーキテクチャである<sup>3)</sup>. さらに,消費電力の面においてもマイクロプロセッサ アーキテクチャにおける従来の低消費電力手法である 電圧,周波数のスケーリングを用いるアーキテクチャ に比べてチップマルチプロセッサではパフォーマンス の低下なしに電力面でも優れた結果を得られたという 報告がある<sup>7)</sup>.

このようにチップマルチプロセッサは低消費電力お よび性能のスケーラビリティ両面を確保できるアー キテクチャである.しかし,チップマルチプロセッサ アーキテクチャはスーパスカラアーキテクチャのよう にハードウェアによる並列性の抽出などを行っていな いためチップマルチプロセッサ上において効率的な演 算を行うためにはチップマルチプロセッサに対応した ソフトウェア最適化が不可欠である.

ソフトウェア最適化では,近年のメモリウォール問 題によるメモリアクセスオーバヘッドの増加により, メモリ利用に関する最適化もソフトウェアの性能向上 の重要課題になっている.特に,チップマルチプロセッ サでは,チップ内にローカルメモリを持つアーキテク チャであれば非常に高速なメモリアクセスが可能であ リローカルメモリを有効に利用できるならば大きな速 度向上を期待できる.そのため,アプリケーションに 存在するデータローカリティを積極的に利用し,メモ リアクセスを効率化する必要がある.

筆者らは実効性能が高く価格性能比およびプログラ ム生産性の高いコンピュータシステムの実現を目指し, 複数粒度の並列性を階層的に組み合わせて利用するマ ルチグレイン並列処理と協調動作する OSCAR チッ プマルチプロセッサアーキテクチャ(OSCAR CMP) を提案している<sup>8)</sup>.OSCAR CMP はチップ内にロー カルメモリと2ポート構成の分散共有メモリを持ち これらのメモリをソフトウェアが適切に利用すること によりプログラムの持つ並列性とデータローカリティ の両方を最大限に活用できるアーキテクチャである. OSCAR CMP が前提とする並列処理方式は,プログ ラムの持つ階層的な並列性を利用したマルチグレイン 並列処理<sup>9)</sup>である.また,データローカリティ利用に ついては共有データを分割し,それら共有データにア クセスする粗粒度タスクを連続実行し,チップ内ロー カルメモリを利用したデータの授受を行い実行効率を 向上させるデータローカライゼーション手法を提案し ている<sup>10)-12)</sup>.これらの評価は,主に科学技術計算プ ログラムを用いて行ってきたが,マルチメディアアプ リケーションにおける OSCAR CMP の性能を確認す るのため,まず第1歩として静止画像圧縮技術として 最も一般的に用いられている規格の1つであるJPEG エンコードを用い,JPEG エンコードの特徴を利用し た粗粒度タスク並列処理と近細粒度タスク並列処理を 階層的に利用するマルチグレイン並列処理手法の提案 を行い,OSCAR CMP 上でその性能を確認した<sup>13)</sup>.

本論文では,マルチメディアアプリケーションに有 効な並列処理手法の提案に加え,メモリ利用量が多 いメディアアプリケーションにおけるメモリアクセス オーバヘッド問題の解決の有効な手法を提案するため MPEG2 エンコードを用い,並列処理粒度としてベー シックブロック間など粒度の大きい粗粒度タスク並列 性を利用した,チップマルチプロセッサ上でのメモリ利 用最適化およびデータ転送最適化をともなう MPEG2 エンコードの並列処理手法を提案し, OSCAR CMP 上での性能について述べる. MPEG2 エンコードはリ アルタイム処理を行う場合,1秒間に100億命令のオー ダの演算が必要となり,ソフトウェアによるリアルタ イムエンコードでは対象アーキテクチャにあわせた効 果的な高速化技術が不可欠である.そのため,様々な 高速化手法が研究されている<sup>14)~17)</sup>. また, MPEG2 エンコードは動画像の冗長度削減などのために使用 データ量が非常に多いため, MPEG2 エンコードの高 速化には並列化による演算の高速化だけでなくメモリ 利用の効率化も重要な要素の1つである.

以下,2章で本論文で対象とするチップマルチプロ セッサアーキテクチャの OSCAR チップマルチプロ セッサアーキテクチャの説明,3章で MPEG2 エン コードアルゴリズムの説明を行い,4章で従来のプロ セッサ上での MPEG2 エンコードの高速化の説明お よびその性能について述べ,5章でチップマルチプロ セッサ上での MPEG2 エンコードの並列処理手法を 提案し,6章で OSCAR チップマルチプロセッサ上で の提案手法の性能評価結果について述べた後,7章で 結論を述べる.

# OSCAR チップマルチプロセッサアーキ テクチャ

本章では,本論文で対象とするチップマルチプロセッ サアーキテクチャである OSCAR チップマルチプロ



Fig. 1 OSCAR CMP architecture.

セッサアーキテクチャ(OSCAR CMP)およびその プロセッサコアアーキテクチャについて述べる.

OSCAR CMP のネットワークおよびメモリアーキ テクチャは,図1に示すように CPU,データ転送を CPU の処理とオーバラップして行えるデータ転送ユ ニット(DTU),各々の CPU で実行するプログラム を格納するローカルプログラムメモリ(LPM),PE 固 有のデータを保持するローカルデータメモリ(LDM), アドレスがグローバルアドレス空間にマップされてお リ自 PE と他 PE の双方から同時にアクセス可能な マルチポートメモリの分散共有メモリ(DSM),を持 つプロセッサエレメント(PE)を相互接続網(バス 結合,クロスバ結合など)で接続し1チップ上に搭載 し,各 PE で共有するデータなどを格納する集中共有 メモリ(CSM)を PE 外部に接続したアーキテクチャ である.

OSCAR CMP では, これら4種類のメモリに対し 最適なデータ配置を行うことが効率の良い並列処理の ために必要となる.

3. MPEG2 エンコードアルゴリズム

MPEG2 は国際標準規格で定められた動画像フォー マットで, DVD や HDTV など現在のメディア配信 で最も一般的に用いられている規格である.そのアル ゴリズムは,動きベクトルを用いた空間冗長度の削減 や離散コサイン変換による軸変換,可変長符号化によ る符号化などマルチメディア処理で用いらる基本的な アルゴリズムで構成されている.

本論文では,MPEG2 エンコードアルゴリズ ムの参照実装として,MediaBench<sup>18)</sup> に収録さ れている MPEG2 エンコードプログラムである "mpeg2encode"を用いる.なお,以降説明するアル ゴリズムは表1に示される MediaBench で用いられ ているエンコードオプションでの動作を仮定する.

まず, MPEG2 ビデオのデータ構造の説明を行う.

表 1 MPEG2 エンコードパラメータ Table 1 MPEG2 encoding parameters.

| # of frames in GOP       | 15                          |  |
|--------------------------|-----------------------------|--|
| I/P frame distance       | 3 (I B1 B2 P)               |  |
| Picture type             | frame picture               |  |
| Aspect ratio information | 4:3                         |  |
| Frame rate               | 30 frames/sec.              |  |
| Bit rate                 | 5000000.0 bits/sec.         |  |
| Profile                  | Main                        |  |
| Level                    | Main                        |  |
| chroma format            | 4:2:0                       |  |
| video format             | NTSC                        |  |
| vbv buffer size          | $112{ m kbit}$              |  |
| progressive sequence     | false                       |  |
| intra dc precision       | 8 bit                       |  |
| quantization scale type  | non-linear                  |  |
| entropy scan type        | Zig-Zag scan                |  |
| search window size       | P:11×11                     |  |
|                          | B1 ( forw. ): $3 \times 3$  |  |
|                          | B1 ( backw. ): $7 \times 7$ |  |
|                          | B2 ( forw. ): $7 \times 7$  |  |
|                          | B2 ( backw. ): $3 \times 3$ |  |

MPEG2 ビデオのデータ構造は 図2 に示すように階 層的な構造をしている.ビデオシーケンスは MPEG2 ビデオデータすべてのことであり,シーケンスヘッダ, 1 つまたは複数のグループオブピクチャ(GOP), お よびシーケンス終了コードで構成される.MPEG2で のランダムアクセス性の確保のために,いくつかの画 像フレームをグルーピングして GOP が構成される. ピクチャは画像フレーム1つ1つのことでありその内 部はいくつかのスライスからなっている.スライスは ピクチャの左上から始まり右下へとスキャン順に続く 任意個のマクロブロックの集合である.スライスデー タの先頭には同期符号が割り当てられておりエラー低 減に用いられる.本論文でのエンコードパラメータで ある 4:2:0 カラーフォーマットでは,マクロブロック は,16×16 ピクセルブロックのルミナンスブロック 2 つの  $8 \times 8$  ピクセルブロックのクロミナンスブ ロックから構成されており,エンコードの単位として 用いられる.最後に最も小さいのが8×8ピクセルブ ロックのブロックレイヤであり, DCT 処理の単位と して用いられる.

次に, MPEG2 エンコードの処理内容について説明 する. MPEG2 エンコードは, 図3 に示すように大 きく分けて以下の7つのステージからなる.



- 動き推定 動きベクトルの探索を行いピクチャタイプ により符号化モードの設定を行う.
- 動き予測 動き推定で求めた動きベクトル,符号化 モードに基づいて符号化対象ピクチャを生成する.
- DCT モード選択 符号化対象ピクチャに対してマク ロブロックレベルでフレーム構造離散コサイン変 換(Discrete Cosine Transform: DCT)を適用 するかフィールド構造 DCT を適用するかを決定 する.
- データ変換 DCT 変換モードに基づき符号化対象ピ クチャに DCT を適用する.
- ビットストリーム出力 DCT を適用したピクチャに 対し量子化の適用を行い,各種ヘッダの送出,ビッ トストリーム出力を行う.また,ビットレート補 償のためのビットレート制御および量子化係数の 算出も行う.
- 逆量子化 後続のエンコードで参照するピクチャをす でにエンコードした画像から生成するために,量 子化適用後のピクチャに対して逆量子化を適用 する.
- 逆データ変換 逆量子化適用後のピクチャに対して逆 DCT を適用し,後続のエンコードで参照するピ クチャを生成し,画像バッファに格納する.

なお,MPEG2 エンコードは主にマクロブロックレ イヤにおいて各マクロブロック単位に符号化が行われ, 画像フレームの左上から右下へと順番にスキャンされ エンコードされる.

4. 従来のプロセッサ上での MPEG2 エン コードの高速化

ここでは,従来のプロセッサ上での MPEG2 エン コードの高速化について確認するために Intel Xeon プロセッサを用いた場合の MPEG2 エンコードの高 速化およびその性能を Intel Xeon 搭載 PC 上で評価 した結果について述べる.

Intel Xeon プロセッサでは,ストリーミング SIMD



Fig. 3 Block diagram of MPEG2 encoding.

拡張命令セット(SSE)と呼ばれる1つの命令で複数 のデータの演算を同時に行うマルチメディア拡張命令 セットを備えており,このSSEを利用することでア プリケーションの高速化を行うことができる.SSEと は,たとえばデータ依存のない複数の"add"命令を 1つの命令で行う"padd"や同様にデータ依存のない 複数のシフト演算を行う"psrl"などである.これら を用いることで積和演算などのマルチメディアアプリ ケーションで利用される演算の高速化が行われる.

SSE の効果を確認するための評価を Intel Xeon プロセッサを搭載した PC 上で行った.評価に用いる プログラムは,後述するチップマルチプロセッサとの 性能と比較が行えるように6章で用いるプログラム と同一のものを利用した.コンパイラは, Intel Fortran Compiler Version 8.0 (Build 20040611Z)を用 い,SSE を利用しない場合は,コンパイルオプショ ンなし,SSE を利用する場合はコンパイラが自動的 に Intel Xeon プロセッサ用に SSE 命令を生成する "/QxW"オプションを用いてコンパイルを行った.評 価に用いた PC のスペックを表2に示す.SSE の効果 を評価するために物理プロセッサ1つ HT なしで評価 を行った.また,計測には,Intel Vtune Performance Analyzer Version 7.1 (Build 14038)を用いた.

評価結果を 表 3 に示し, キャッシュヒット率を 表 4 に, MPEG2 エンコードの各エンコードステージの実 行時間およびその割合を 表 5 に示す.評価プログラム は,入力データサイズが小さいため,キャッシュのヒッ ト率が非常に高くメモリアクセスによる速度低下はほ とんどないと考えられる.評価結果より,ストリーミ ング SIMD 拡張命令セットを利用することにより各 エンコードステージの時間が短縮されて速度向上が得 られ,SSE 命令の利用により 2.45 倍の速度向上が確 認できた.

## 5. チップマルチプロセッサ上での MPEG2 エンコードの並列処理

本章では,チップマルチプロセッサ上での MPEG2 エンコードの効率的な処理を行うために,MPEG2 エ ンコードの特徴を考慮した並列処理粒度の考察と並列 化,近年のメモリウォール問題によるメモリアクセス

表 2 評価マシンのスペック Table 2 Specification of PC.

| :     | モデル名         | DELL PRECISION 450             |  |
|-------|--------------|--------------------------------|--|
| CPU   |              | Intel Xeon プロセッサ 2.8 GHz       |  |
|       | hoge         | with HT Technology $x^2$       |  |
| L1I ( | Cache ( TC ) | $12\mathrm{K}~\mu\mathrm{ops}$ |  |
| L1D   | Size         | 8 KB                           |  |
| Cache | Way          | 4-way                          |  |
|       | Line Size    | $64\mathrm{B}$                 |  |
|       | Latency      | 2 clocks                       |  |
|       | Write Policy | Write Through                  |  |
| L2    | Size         | $512\mathrm{KB}$               |  |
| Cache | Way          | 8-way                          |  |
|       | Line Size    | 128 B                          |  |
|       | Latency      | 7 clocks                       |  |
|       | Write Policy | Write Back                     |  |
| Mai   | n Memory     | Dual Channel                   |  |
|       | hoge         | DDR-SDRAM 333 MHz 2 GB         |  |

表 3 Intel Xeon 搭載 PC 上での評価結果 Table 3 Evaluation result on Intel Xeon PC.

|           | SSE なし | SSE あり |
|-----------|--------|--------|
| 実行時間 [ms] | 1,047  | 427    |

表 4 キャッシュヒット率 Table 4 Cache hit rate.

|           | SSE なし [%] | SSE あり [%] |
|-----------|------------|------------|
| L1D Cache | 97.4       | 97.0       |
| L2 Cache  | 99.8       | 99.8       |

オーバヘッドの増加による性能低下を考慮したメモリ 利用最適化手法の提案および CPU と非同期にデータ 転送を行いメモリアクセスオーバヘッドをさらに削減 する手法であるデータ転送オーバラップスケジューリ ングの提案を行う.

5.1 MPEG2 エンコードの粗粒度並列性

MPEG2 エンコードから並列性を考察するために, MPEG2 ビデオデータ構造に注目する. MPEG2 ビデ オデータは3章で述べたように階層的な構造をしてお り,各レイヤのデータはランダムアクセス性の確保や

|         | 表 5 エンコードステージの実行時間と割合                         |     |
|---------|-----------------------------------------------|-----|
| Table 5 | Execution time and ratio of each encoding sta | a c |

|            | 実行時間 [ms] ( 割合 [%] ) |             |  |
|------------|----------------------|-------------|--|
| ステージ       | SSE なし               | SSE あり      |  |
| 動き推定       | 816 (77.9%)          | 320 (74.9%) |  |
| 動き予測       | 7 (0.7%)             | 5 (1.1%)    |  |
| DCT モード選択  | 3 (0.3%)             | 3 (0.6%)    |  |
| データ変換      | 86 (8.2%)            | 19 (4.4%)   |  |
| ビットストリーム出力 | 48 ( $4.6%$ )        | 26 (6.1%)   |  |
| 逆量子化       | 7 (0.6%)             | 4 (0.9%)    |  |
| 逆データ変換     | 14 ( $1.3%$ )        | 9 (2.1%)    |  |
| その他        | 67 ( $6.4%$ )        | 42 (9.9%)   |  |

エラー耐性の補償などのためにデータどうしでその独 立性が確保されている部分がある.ここでは,各レイ ヤでのデータの独立性に注目し,並列性の考察を行う.

まず, GOP レイヤでは, GOP 単位でのランダムア クセス性の確保のために各 GOP 間にはデータ依存が ない. 一方, ピクチャレイヤでは図4のように, 空間 冗長度削減によるデータ圧縮のために各ピクチャは参 照関係, すなわちデータ依存関係にある. この空間冗 長度削減方法は3つのタイプが定義されており,それ ぞれピクチャタイプとして定義されている.1つ目の ピクチャタイプはイントラピクチャまたはIピクチャ と呼ばれ,各ピクチャでの基準となるピクチャである. I ピクチャは,他のピクチャの情報を使用せず JPEG のように自身のピクチャの情報のみで符号化を行う. 2つ目のピクチャタイプは,予測符号化ピクチャまた は P ピクチャと呼ばれる . P ピクチャは , 過去の I ピ クチャまたは P ピクチャを参照ピクチャとし,時間 軸上で前向き動き予測で符号化される.3つ目のピク チャタイプは双方向予測符号化ピクチャまたは B ピ クチャと呼ばる. B ピクチャは, 過去と将来の I ピク チャまたは P ピクチャを参照ピクチャとして時間軸 上で前向きおよび後向き予測符号化される.スライス レイヤは,エラー補償のために各スライス間は独立し て符号化される.マクロブロックレイヤでは,マクロ ブロックが予測符号化の基本単位となっているために 符号化処理では各マクロブロック間でのデータの依存 はない.しかし,ビットレート補償やビットストリー ム出力を行うビットストリーム出力ステージでは,量 子化係数の演算やビットストリームの出力順番はピク チャの右上から左下へのスキャン順に行う必要がある. そのため,ビットストリーム出力ステージのみマクロ ブロック間でのデータ依存が存在する.

以上のように,データ構造から並列性を考察すると,



Fig. 4 Picture types.

GOP レイヤ,スライスレイヤ,およびビットストリー ム出力ステージ以外のマクロブロックレイヤではデー タ依存がなく,各レイヤで並列処理が可能であること が分かる.

5.2 メモリ利用量を考慮した並列性粒度の解析

チップマルチプロセッサで高い実効効率を得るため には,並列性の利用だけではなく,データローカリティ を利用したチップ内メモリの利用によるメモリアクセ スオーバヘッドの削減も重要となる.そのため,各レイ ヤで利用されるデータ容量を考慮した並列処理粒度の 決定も重要な要素の1つである.ここでは,MPEG2 エンコードのメモリ利用量がどの程度になるか考察を 行う.

5.2.1 各レイヤでのメモリ利用量

まず,マクロブロックレイヤにおけるデータ利用量 をソースコードを基に解析した.その結果,1つのマク ロブロックのエンコード処理に約32Kバイトのデー タを利用することが解析できた.このマクロブロック レイヤで利用するデータは,エンコード対象のマクロ ブロックと動き予測や動き推定で利用する参照画像が 主なデータである.

次に, さらに大きな粒度のスライスレイヤに注目 する.1つのスライスに含まれるマクロブロックの数 はエンコードソフトウェアの実装依存となっている. 今回参照とした"mpeg2encode"では,1スライス中 のマクロブロックはピクチャ1列分が必要である.す なわち,携帯電話などで一般的なサイズであるQCIF (176×144)では1スライスで11マクロブロック, QVGA(320×240)では20マクロブロック必要と なり最小でもQCIFでは約32×11=352Kバイト, QVGAでは約32×20=640Kバイトそれぞれ必要 となる.また,スライス単位のエンコードで必要とな るメモリ容量は,画像サイズに依存するため,高精細 な大画面でのエンコードでは利用メモリサイズがかな り大きくなると予想される.

GOP レイヤは, 複数のピクチャを持ったスライス

レイヤよりさらに大きな粒度のデータが必要となるレ イヤである.複数ピクチャ単位になると数 M バイト の容量が必要となり,チップマルチプロセッサのチッ プ内メモリ容量をオーバする可能性がある.

以上より,チップマルチプロセッサのチップ内メモ リ容量を考慮すると,チップ内メモリ容量より小さい メモリを利用する,マクロブロックレイヤにおける並 列性の利用が有効であると考えられる.

5.3 マクロブロックレベルの並列性の抽出

5.2 節の解析から得られた考察より,マクロブロックレベルの並列性を利用した並列処理を行う.ここでは,コンパイラによる並列性の抽出法について述べる.

5.3.1 コンパイラによる並列性の抽出

本論文では, OSCAR 自動並列化コンパイラ<sup>9)</sup>を用 いて並列性の抽出を行う.コンパイラでは,はじめに, プログラムを疑似代入文ブロック(BPA), 繰返しブ uvp(RB), サブルーチンブロック(SB) の3種類の粗粒度タスク (マクロタスク (MT)) に分割する. ここで, BPA は基本的に通常の基本ブロックである が,並列性抽出のために単一の基本ブロックを複数に 分割したり,逆に複数の基本ブロックを融合したりし て1つの BPA を生成する. MT 生成後, コンパイラは BPA, RB, SB などの MT 間の制御フローとデータ 依存を解析し,結果をマクロフローグラフ(MFG)<sup>9)</sup> として表す.次に, MFG から MT 間の並列性を最大 限に抽出するためにデータ依存と制御依存を考慮し、 各 MT が最も早い時点で実行可能となる条件解析であ る最早実行可能条件解析9)が行われる.その結果は, 各 MT の制御依存とデータ依存を表したマクロタスク グラフ (MTG)<sup>9)</sup> として表現される.MTG 生成後, MTG 上の MT をプロセッサあるいは複数のプロセッ サエレメント (PE) をグループ化したプロセッサグ ループ(PG)に割り当てる.なお,このグループ化は プログラム中の各部分の並列性に応じソフトウェア的 に行われる仮想的なものでハードウェア的なグループ 化とは異なる.ここで, PG に割り当てられた繰返し ブロックが,イタレーションレベルでデータ依存がな く並列処理可能な Doall ループの場合は, PG内 PE 間でループ並列処理が行われる.

5.3.2 マクロブロックレベルの並列性

MPEG2 エンコードで,マクロブロックレベルの並 列性を抽出して利用する場合,ビットストリーム出力 順やビットレート補償のための係数など直前のマクロ ブロックのエンコーディング情報を必要とするビット ストリーム出力ステージ以外は,図3 で示した各ス テージにおいてそれぞれのマクロブロックは独立して



図 5 MPEG2 エンコードのコード例とマクロタスクグラフ

Fig. 5 Code fragment of MPEG2 encode and macro task graph.

演算できる.図5左は, MediaBench での実装を基に した MPEG2 エンコーディングのコード例を示して いる.このコードからコンパイラにより並列性の抽出 を行うと,各ステージがそれぞれ MT として定義さ れ図5右のような MTG が生成される.MTG中,各 ノードは MT を表し,各エッジはデータ依存を表して いる.図5右より,ビットストリーム出力ステージの み,イタレーション間でループキャリー依存の存在に より,シーケンシャルループであるが,他の各ステー ジからはマクロブロックレベルの並列性により1イタ レーションが1つのマクロブロックを処理するループ 並列性が抽出される.

しかし,このように抽出したループ並列処理を適用 した場合,チップ内メモリの利用に関して以下のよう な問題が発生する.MPEG2のエンコード処理は1つ のステージをピクチャ全体に対して適用した後に次 のステージへと進む構造をしている.そのため,各ス テージの処理開始時のイタレーションで演算されたエ ンコードデータは後続イタレーションを演算する際, チップ内ローカルメモリの容量はピクチャ全体のデー タを保持できるほど大きくないためチップ内ローカル メモリに保持しておけない.そのため,高速アクセス が可能な CPU 近傍のチップ内ローカルメモリへエンコー ドデータのストアが必要となる.また,後続のステー ジを演算する際にも,チップ外メモリにストアされて いる前ステージのエンコードデータをチップ内ローカ ルメモリへ転送する必要がある.そのため,チップ内 ローカルメモリ-チップ外メモリ間のロード・ストア による転送オーバヘッドが発生し全体的な実行効率が 低下する.

5.4 データローカリティの利用

ループ並列処理を利用した場合のチップ内メモリ容 量の制限によって発生するデータ転送の問題は,タス クの分割とタスク実行順序の並べ替えによってプロ セッサローカルメモリを利用した共有データの授受を 行いデータローカリティ利用の向上を行うデータロー カライゼーション手法<sup>10)~12)</sup>により解決される.

5.4.1 データローカライゼーション手法

データローカライゼーション手法は,以下の手順で 行われる.まず,データを共有する各ループ(MT)の データ使用範囲が一致するように考慮しながら,その データ使用容量がプロセッサ内ローカルメモリ以下と なるようにループ整合分割10)を行う.次に,分割し たそれぞれの小ループを粗粒度タスクとして定義し、 最早実行可能条件解析を適用し並列性を抽出しマク ロタスクグラフを生成する.そして,マクロタスクグ ラフ上でマクロタスク間のデータ共有量を計算し共有 量の多いマクロタスク群をデータローカライゼーショ ングループ (DLG)<sup>10)</sup> として定義する.その後,同 一 DLG 内マクロタスクを同一プロセッサ上でなるべ く連続して実行するように各タスクをプロセッサ上に スケジューリングする.以上により,データを共有す る複数の粗粒度タスク間でプロセッサ内ローカルメモ リを介した効率の良いデータの受渡しが可能となり, データローカリティを利用した,メモリ利用効率の最 適化が行われる.

なお,データローカライゼーション手法は,SMPマ シン<sup>11)</sup> やチップマルチプロセッサ<sup>12)</sup>のようにキャッ シュアーキテクチャやローカルメモリアーキテクチャ のように階層的なメモリアーキテクチャマシン上で汎 用的に用いることができる手法である.

5.4.2 データローカライゼーション手法の

MPEG2 エンコードへの適用

本項では, MPEG2 エンコードにおけるデータロー カライゼーション手法の適用手法を提案する.まず, チップマルチプロセッサのチップ内ローカルメモリ容 量を考慮し, 各ステージのループがマクロブロックレ ベルの部分ループになるようにコンパイラ指示文によ り指定し, コンパイラにより各ステージをマクロブロッ



図 6 データローカライゼーション手法適用後の MPEG2 エン コードのタスクグラフ

Fig. 6 MacroTask Graph of MPEG2 encoding with data localization.

クレベル処理の部分ループに整合分割する.このとき, ビットストリーム出力ステージは,シーケンシャルルー プではあるが,基本的にマクロブロックレベルで処理 を行うループとなっているため,他のステージと同様 にマクロブロックレベルの部分ループに分割する.ルー プ整合分割後,コンパイラは,分割された部分ループ を粗粒度タスク(MT)として定義し並列性の抽出を 行う. MPEG2 エンコードでは各 MT は 1 つのマクロ ブロックのエンコード処理を行う粒度となる.たとえ ば, ピクチャの大きさが4つのマクロブロックである 場合の並列性を抽出した結果は,図6のマクロタスク グラフ(MTG)として表される.図6では,各ノード は MT を表し, 各エッジはデータ依存を表している. ノード中の  $MTx_i$  (x = 1, ..., 7, i = 1, ..., N: N はピクチャ中の総マクロブロック数)は, x = 1 が動 き推定ステージ, x = 2 が動き予測ステージ, x = 3

が DCT モード選択ステージ, x = 4 がデータ変換 ステージ,x = 5がビットストリーム出力ステージ, x = 6 が逆量子化ステージ, x = 7 が逆データ変更 ステージをそれぞれ示し, *i* はエンコード対象とする マクロブロックのスキャン番号 (ピクチャの右上から 左下へスキャンされる)を示す.図6より,ビットス トリーム出力ステージ以外ではマクロブロックレベル においてデータ依存が存在しないことが分かる.こ こで,ビットストリーム出力ステージにおけるデータ 依存エッジに関してエッジが接続されているマクロタ スク間でのデータ共有量について考える.MT5\_1か ら MT6\_1 および MT5\_2 へ接続しているデータ依存 エッジを例とすると, MT5\_1 から MT6\_1 へのデー タ依存エッジにおけるデータ共有量は MT5\_1 で量子 化されたマクロブロックの演算データおよび量子化係 数などである.対して MT5\_1 から MT5\_2 へのデー タ依存エッジは,ループ整合分割を行う前で発生して いたループキャリー依存に関するデータ依存であり, ビットレート補償のための量子化係数,ビットレート 係数やビットストリーム出力位置情報などである.こ れらのデータ共有量を比較すると

(*MT*5\_1 から *MT*6\_1 間でのデータ共有量)

>(*MT*5-1 から *MT*5-2 間でのデータ共有量) となりデータ転送の効率化の観点から *MT*5-1 実行 後,連続して *MT*6-1 を実行しチップ内メモリを介し たデータの授受を行う方が効率的である.

以上のように,マクロタスク間のデータ共有量を情 報としてコンパイラにより,各 MT のプロセッサへ のスケジューリングを行うと,同じマクロブロックを エンコードする各ステージを1つのデータローカライ ゼーショングループ(DLG)として定義し,1つのマ クロブロックのエンコードは同一プロセッサで連続し て行うようにスケジュールされる.例として,総マク ロプロック数が8個のときのスケジュール結果を図7 に示す.

5.5 データ転送オーバラップを考慮したスケジュー リング

データローカライゼーション手法により,データロー カリティを最大限に活用してもローカルメモリへの初 期データのロードや演算結果のストアなどのデータ 転送が発生するため,データ転送オーバヘッドによる 速度低下が発生する.そこで,CPUと非同期にデー タ転送を行うデータ転送ユニット(DTU)を利用し, CPU でのタスク実行とDTUを利用したデータ転送 をオーバラップすることでデータ転送オーバヘッドを 隠蔽する.



ここで、ロードオーバヘッド隠蔽技術は、あるタス ク  $T_i$ の実行で必要なデータ  $D_i$ を外部メモリからプ ロセッサローカルメモリにロードするとき n 番先行 に実行されるタスク  $T_{i-n}$  実行中に DTU を利用して  $D_i$ をロードすることにより、本来は  $T_i$ の先頭で行わ れていた  $D_i$ のデータロードによるオーバヘッドの隠 蔽を行うことを示し、プレロードと定義する.また、 ストアオーバヘッド隠蔽技術は、あるタスク  $T_j$ にお いて  $T_j$ の演算結果である  $D_j$ をプロセッサローカル メモリから外部メモリヘストアする必要がある場合、  $T_j$ 終了時にストアはせず、m 番後続に実行されるタ スク  $T_{j+m}$ の実行中に DTU を利用し  $D_j$ をストアす ることにより  $D_j$ のデータストアによるオーバヘッド の隠蔽を行うことを示し、ポストストアと定義する.

5.5.1 データ転送オーバラップスケジューリング ここでは,プログラム実行とデータ転送をオーバ ラップすることでデータ転送オーバヘッドを隠蔽する プレロード・ポストストア手法を考慮したスケジュー リングの提案を行う.提案する手法は,PE内に CPU と非同期にデータ転送ができるデータ転送ユニットも しくは DMA コントローラと分散共有メモリを有する アーキテクチャで利用できる.

まず,前提条件として,プレロードおよびポストス トアは MT の先頭または末尾においてのみ開始でき るものとし,複数のプレロード,ポストストアの開始 が登録できるものとする.ただし,1つの DTU では 同時に1つのプレロード,ポストストアのみ実行でき るものとし,登録順にプレロード,ポストストアを実 行する.以下,プレロード,ポストストアを考慮した スケジューリング手法を提案する.

仮プレロード開始時刻の定義 まず,プレロードスケ ジューリングの初期開始時刻となる,プレロード の仮開始時刻の定義を行う.プレロード対象デー タは,あるマクロタスク *MT<sub>pl</sub>*に生きて入り,か つ,  $MT_{pl}$  内で前方露出参照されるデータであり  $MT_{pl}$  実行開始時にプロセッサローカルメモリへ データ転送が必要なデータ  $D_{pl}$  で定義される. ここで,  $MT_{pl}$  がプロセッサ  $PG_l$  にスケジュー ルが決定されたとする.このとき, プレロード開 始時刻を決めるために,まず,  $MT_{pl}$  開始時刻か ら部分スケジュールを時間軸上前方向へスキャン し  $D_{pl}$  が最後に生産されるマクロタスクを探索 し,そのマクロタスクの末尾を仮プレロード開始 時刻と定義する.このとき,  $D_{pl}$  のデータロード に必要なコストを推定し  $Cost_{pl}$  とする.

- 仮ポストストア開始時刻の定義 次に、ポストストア スケジューリングの初期開始時刻となる、ポスト ストアの仮開始時刻の定義を行う、ポストスト ア対象データは、 $PG_m$ 上の $MT_{ps}$ で生産され るデータ $D_{ps}$ が後続の $PG_n$ に割り当てられた  $MT'_{ps}$ で使用される場合の $D_{ps}$ である、そのた め、 $MT'_{ps}$ がスケジューリングされるまでポスト ストアが必要か判断できないため $MT'_{ps}$ のスケ ジューリングが確定した時点でポストストア開始 時刻を決定する、まず、 $MT'_{ps}$ のスケジューリン グが決定したとき、 $MT_{ps}$ の線了時刻を仮ポスト ストア開始時刻と定義する、このとき、 $D_{ps}$ の データストアに必要なコストを推定し $Cost_{ps}$ と する
- プレロード・ポストストアスケジューリング 前述 のスケジューリング対象となる MT の仮プレロー ド開始時刻または仮ポストストア開始時刻の定義 ができたら,次に,プロセッサローカルメモリ-外 部メモリ間のネットワーク利用状況,および,デー タ転送コストを考慮し,以下のようにプレロード・ ポストストア開始時刻を決定する.プレロードお よびポストストアの開始時刻の評価は,プレロー ド,ポストストアともに同時に行う.スケジュー リングに必要なパラメータ以下のように再定義す る.プレロード対象データ  $D_{pl}$  およびポストス トア対象データ D<sub>ps</sub> をプレロード・ポストスト ア対象データ D<sub>plps</sub>, プレロード・ポストストア 対象データ D<sub>plps</sub> のロード・ストアに必要なコス ト $Cost_{pl}$  および $Cost_{ps}$ を $Cost_{plps}$ ,プレロー ド対象データを利用するマクロタスクの *MT*<sub>pl</sub> お よびポストストア対象データを利用するマクロタ スク $MT'_{ps}$ を $MT_{plps}$ とする.
  - (1) 仮プレロード・ポストストア開始時刻から *Cost<sub>plps</sub>*の時間分ネットワークが空いてい る場合,評価している仮プレロード・ポス

トストア開始時刻をプレロード・ポストス トア時刻として決定する.

- (2) 評価しているプレロード・ポストストアが 仮開始時刻において,他のプレロード・ポス トストアと重複し Cost<sub>plps</sub>の時間分ネッ トワークが空いていない場合は,重複して いるプレロード・ポストストアと((MT<sub>plps</sub>) の開始時刻)-(仮プレロード・ポストストス トア開始時刻))の値を比較し,値が小さ いプレロード・ポストストア時刻を優先し て,(1)に従いプレロード・ポストストア を決定する.
- (3) 評価している時刻では、プレロード・ポスト ストアが決定できない場合は、時間軸で直 後の MT の終了時刻を仮プレロード・ポス トストア開始時刻と再定義し、(1)からプ レロード・ポストストアの時刻を決定する.
- 5.5.2 MPEG2 エンコードでのデータ転送オーバ ラップスケジューリング

4 つのマクロブロックをエンコードする MPEG2 エ ンコードを例とし,提案したデータ転送オーバラップ を考慮したスケジューリングに従い,コンパイラによ リプレロード・ポストストアを決定すると,図8のよ うなスケジューリング結果が得られる.

図8は,1バス構成のアーキテクチャ上で2プロセッ サ用いた場合のスケジューリング状態のイメージを示 し,時間軸は左から右へ時間が進行し,各スケジュー ルチャートは, 上から PG0の CPU 上でのタスクの実 行状況, PG1のCPU上でのタスクの実行状況, バス の利用状況を示す.なお,時間軸はコンパイラでスケ ジューリング時に利用されるスケジューリングクロッ クで表示されている.各PGのスケジュールチャート において, MTx\_i はマクロタスクの実行を示す.バ スの  $LD_i$  は j 番目のマクロブロックのエンコード実 行に必要なデータのロードを実行中を示し, $ST_k$ は k 番目のマクロブロックでの必要なストアを実行中で あることを示す.また,グレーのチャートは,アイド ル状態であることを示す. MPEG2 エンコードでは, 動き推定ステージ開始時で対象マクロブロックのエン コードに必要なデータのロード,逆変換ステージ終了 時にデータのストアを行う.そのため,図8における MT1\_i の先頭までにデータのロードおよび, MT7\_i 終了後にデータのストアが必要となる. 各 PG の先頭 の MT1\_1, MT1\_2 のロード LD1, LD2 は, 先行 するマクロタスクがないためプレロードはできず,各 PG の最後の MT7\_3, MT7\_4 のストア ST3, ST4



Fig. 8 A scheduling result image considering data transfer overlapping.

は,後続するマクロタスクがないためポストストアは 行えない.しかし,中間に位置する*MT*1.3,*MT*1.4 のロード*LD*3,*LD*4 は,先行するマクロタスクと オーバラップしてプレロードし,*MT*7.1,*MT*7.2 の ストア*ST*1,*ST*2 は,後続するマクロタスクとオー バラップしてポストストアするスケジューリング結果 が得られた.

### 6. 性能評価

本章では, MPEG2 エンコードに対して 3 章で提 案した並列処理手法を適用し OSCAR チップマルチ プロセッサ(OSCAR CMP)上で評価した結果につ いて述べる.

6.1 評価条件

評価に用いるプログラムは,MediaBench に収 録されている MPEG2 エンコードプログラム "mpeg2encode"を参照実装し, OSCAR 自動並列化 コンパイラを利用するために Fortran で実装されたプ ログラムである.並列性の抽出は参照実装したシーケ ンシャルプログラムを OSCAR 自動並列化コンパイ ラを用いて並列性の抽出を行う.このとき,並列処理 を行う階層として5章で述べたマクロブロックレベル の並列性を利用する階層をコンパイラ指示文で手動で 指定し,コンパイラによりマクロブロックレベルの並 列性を自動的に抽出する.その後,データローカライ ゼーションおよびデータ転送オーバラップスケジュー リングを 5.4.2 および 5.5.1 項のアルゴリズムで適用 し,コンパイラにより OSCAR CMP 用バイナリー コードを生成した.入力画像は, MediaBench で用い られる入力画像(compo.tar.gz 中の rec\*.[YUV])を シミュレーション時間短縮のために 256×256 ピクセ ルに縮小した画像を用い4フレームのエンコードを行 い,エンコードオプションは MediaBench で用いられ ているものと同一とする.

性能評価には OSCAR CMP をクロックレベルで シミュレートする詳細なシミュレータを用いた.OS-

表 6 OSCAR CMP メモリアクセスレイテンシ Table 6 Memory access latencies for OSCAR CMP.

| <b>クロック周波数</b> [MHz]   | 400 | 2,800 |
|------------------------|-----|-------|
| LDM (128KB) [clock(s)] | 1   | 2     |
| DSM (32KB) [clock(s)]  | 1   | 3     |
| CSM (3MB) [clock(s)]   | 24  | 105   |

CAR CMP の各メモリサイズは,LDM が 128 KB, DSM が 32 KB,CSM はオフチップメモリで 3 MB と し,各メモリへのメモリアクセスレイテンシは,OS-CAR CMP の動作周波数を 400 MHz と 2.8 GHz を 想定し 表 6 に示すものとした.表 6 は,90 nm プロ セスにおけるレイテンシを CACTI  $3.0^{19}$  を用い推定 を行った<sup>20)</sup>.各 PE が持つ CPU は,SPARC V9 規 格に準拠したプロセッサである Sun Microsystems 社 の UltraSPARC-II のパイプライン構成をベースとし, バリア同期機構等用の特殊レジスタや特殊レジスタを 操作するための命令を付加したプロセッサであり,整 数演算ユニット(IEU)を1本,ロードストアユニッ ト(LSU)を1本,浮動小数点ユニット(FPU)を1 本持つシングルイシューのシンプルな構成とした.

6.2 評価結果

動作周波数 400 MHz 時の OSCAR CMP 上での性 能評価結果を 図 9 に,動作周波数 2.8 GHz 時の OS-CAR CMP 上での性能評価結果を図 10 にそれぞれ 示す.図 9 および 図 10 中横軸の "1PE", "2PEs", "4PEs" および "8PEs" は,使用プロセッサ数をそれ ぞれ示し,縦軸は逐次実行時間に対する速度向上率を 示す.3 本の棒グラフのうち左側は,従来のマルチプ ロセッサシステム用並列化手法であるループ並列処理 を適用した場合の性能,中央は提案手法のうちメモリ 利用最適化技術であるデータローカライゼーション手 法のみを適用した場合の性能,右側は本論文で提案し たデータローカライゼーション手法およびデータ転送 オーバラップスケジューリングを適用した場合の性能 をそれぞれ示す.



図 9 MPEG2 エンコード評価結果 (OSCAR CMP@400 MHz) Fig. 9 Evaluation result on OSCAR CMP@400 MHz.



性能評価結果より,動作周波数 400 MHz 時の OS-CAR CMP では, 従来の並列化手法であるループ並 列処理適用時は逐次実行に対して,2プロセッサ利用 時 1.80 倍, 4 プロセッサ利用時 2.95 倍, 8 プロセッサ 利用時 4.38 倍の速度向上率がそれぞれ得られた.同様 に提案手法のデータローカライゼーション手法のみを 適用した場合では,1プロセッサ利用時1.08倍,2プ ロセッサ利用時 2.13 倍, 4 プロセッサ利用時 4.01 倍, 8プロセッサ利用時 7.11 倍の速度向上がそれぞれ得ら れ,データローカライゼーション手法に加えデータ転 送オーバラップスケジューリングを適用した場合では, 1 プロセッサ利用時 1.24 倍, 2 プロセッサ利用時 2.46 倍,4プロセッサ利用時4.57倍,8プロセッサ利用時 7.97 倍の速度向上率がそれぞれ得られた.動作周波数 2.8 GHz 時の OSCAR CMP では, 従来の並列化手法 であるループ並列処理適用時は逐次実行に対して,2 プロセッサ利用時 1.67 倍, 4 プロセッサ利用時 2.46 倍,8プロセッサ利用時2.88 倍の速度向上率がそれぞ れ得られた.同様に提案手法のデータローカライゼー ション手法のみを適用した場合では,1プロセッサ利 用時 1.15 倍, 2 プロセッサ利用時 2.23 倍, 4 プロセッ

サ利用時 3.87 倍,8 プロセッサ利用時 5.95 倍の速度 向上がそれぞれ得られ,データローカライゼーション 手法に加えデータ転送オーバラップスケジューリング を適用した場合では,1 プロセッサ利用時 1.36 倍,2 プロセッサ利用時 2.61 倍,4 プロセッサ利用時 4.46 倍,8 プロセッサ利用時 6.54 倍の速度向上率がそれぞ れ得られた.以上より,データローカライゼーション 手法およびデータ転送オーバラップスケジューリング を利用した提案手法は,従来手法であるループ並列化 による並列処理に比べ,よりスケーラブルな性能を得 ることが確かめられた.次に,データローカライゼー ション手法による有効性とデータ転送オーバラップス ケジューリングによる有効性について個別に性能を確 認する.

まず,データローカライゼーション手法の有効性を 見るためデータローカライゼーション手法のみを適 用した場合と提案する最適化手法を用いない従来の 並列化手法であるループ並列処理適用時を同数のプ ロセッサ数を利用した場合で比較を行うと,動作周 波数 400 MHz 時の OSCAR CMP では,最大で,8 プロセッサ利用時 1.62 倍の性能差となり,動作周波 数 2.8 GHz 時の OSCAR CMP では,最大で,8プ ロセッサ利用時 2.07 倍の性能差となった.この性能 差は,データローカリティの利用によってデータアク セスオーバヘッドの少ない CPU 近傍のメモリを利用 することによるものによるものだけでなく、タスクス ケジューリングにおいて,データローカライゼーショ ン手法を利用することにより, MT の部分ループへの 分割を行ったことによって,良い負荷バランスを得る ことが可能となったことも貢献している.また,アク セスレイテンシの低い LDM とアクセスレイテンシの 高い CSM との速度差が大きいほどデータローカライ ゼーション手法がより有効であることが分かる.

さらに,データローカライゼーション手法に加え, データ転送オーバラップスケジューリングを適用した場 合は,ループ並列処理を適用した場合と同一のプロセッ サ数を利用した場合に対して,動作周波数 400 MHz 時の OSCAR CMP では,最大で8 プロセッサ利用時 1.82 倍向上が得られ,動作周波数 2.8 GHz 時の OS-CAR CMP では,最大で8 プロセッサ利用時 2.27 倍 の性能が得られ,ロード・ストア時間削減分の速度向 上が得られたことが確認できた.

次に,一般のプロセッサで用いられているマルチメ ディア拡張命令セットを用いた場合と性能比較を行 う.提案したデータローカライゼーション手法および データ転送オーバラップスケジューリングを適用した



MPEG2 エンコードを動作周波数 400 MHz 時および 2.8 GHz 時のの OSCAR CMP 上で評価したときの実 行時間と 4 章で評価したストリーミング SIMD 拡張 命令セットを用いた MPEG2 エンコードを動作周波 数 2.8 GHz の Intel Xeon 搭載 PC 上での評価したと きの実行時間を 図 11 に示す.図11 中横軸は利用プ ロセッサ数を示し,縦軸は実行時間を示す.

動作周波数 400 MHz 時の OSCAR CMP と動作周 波数 2.8 GHz の Intel Xeon プロセッサ搭載 PC とで は,1プロセッサ利用の OSCAR CMP は,0.04 倍も の速度低下であったものが,8プロセッサ利用のOS-CAR CMP では 0.3 倍程度の速度低下に抑えること ができた.このことは,動作周波数7分の1にとも なう消費電力面での有用性や, ハードウェアが単純な シングルイシューコアを集積することによる開発コス ト削減への有用性などへのメリットが大きいと考えら る.また,動作周波数2.8 GHz 時のOSCAR CMPと 同一動作周波数 2.8 GHz の Intel Xeon プロセッサ搭 載 PC では,1 プロセッサ利用の OSCAR CMP では, 0.21 倍の速度低下であったものが8 プロセッサ利用す ることで 1.05 倍の性能向上が得られた.このことよ り, OSCAR CMP のスケーラビリティの利用により 性能を得ることができ,SSE を有効にした Intel Xeon プロセッサと同等もしくはそれ以上の性能を得ること が確認できた.

#### 7.まとめ

本論文では,複数ループにまたがるグローバルデー タローカリティ最適化を行うデータローカライゼー ション手法と粗粒度タスクの実行とデータ転送をオー バラップさせデータ転送オーバヘッドを最小化するデー タ転送オーバラップスケジューリングからなるチップ マルチプロセッサ上での MPEG2 エンコードの並列 処理手法を提案し,その性能評価を行った.その結果, 提案手法は動作周波数 400 MHz を想定した OSCAR CMP では,逐次実行に対し,1 プロセッサ利用時 1.24 倍,2 プロセッサ利用時 2.46 倍,4 プロセッサ利用時 4.57 倍,8 プロセッサ利用時 7.97 倍速度向上率が得 られ,動作周波数 2.8 GHz を想定した OSCAR CMP では,逐次実行に対し,1 プロセッサ利用時 1.36 倍, 2 プロセッサ利用時 2.61 倍,4 プロセッサ利用時 4.46 倍,8 プロセッサ利用時 6.54 倍の速度向上率が得ら た.このことから,提案した MPEG2 エンコードの 並列処理手法はチップマルチプロセッサ上で,スケー ラブルかつ効果的な並列処理を実現できることが確認 できた.

また、マルチメディア拡張命令セットを搭載したスー パスカラ汎用プロセッサ Intel Xeon を搭載した PC との比較においても動作周波数 2.8 GHz の OSCAR CMP で 8 プロセッサ利用時で 1.05 倍の性能向上が得 られ、スーパスカラやマルチメディア拡張命令セットな どの複雑なアーキテクチャを持った一般のプロセッサ と比較した場合でも、単純な CPU を用いた OSCAR CMP 上で同等もしくは、それ以上の性能を得られる ことが確認できた.

マルチメディアアプリケーションでは,MPEG2エ ンコードのように,ある単位のデータを処理単位とし たデータブロックによるエンコード/デコードを行う アプリケーションが多く,MP3やH.264などでは, MPEG2同様入力データをデータブロック単位で処理 を行っている.そのため,本論文で提案した手法は, データブロック単位で処理を行うマルチメディアアプ リケーションにおいて,データブロック単位の処理を 粗粒度タスクと定義することにより,汎用的に適用す ることができると考えられる.

今後の課題として, MPEG2 エンコードのさらなる 高速化として MPEG2 エンコードへのマクロブロッ ク処理間の粗粒度タスク並列性とマクロブロック処理 内での近細粒度並列性やマルチメディア命令セットを 利用した命令レベル並列性を階層的に利用したマルチ グレイン並列性の適用, およびキャッシュ共有型など 他のチップマルチプロセッサアーキテクチャとの比較 があげられる.

謝辞 本研究の一部は,STARC「自動並列化コンパ イラ協調型シングルチップマルチプロセッサの研究」, 早稲田大学理工総研プロジェクト研究「自動並列化コン パイラ協調型チップマルチプロセッサ」,NEDO「先進 ヘテロジニアスチップマルチプロセッサ研究開発事業」, 文部科学省科学研究費補助金若手研究(B)(課題番号 15700074),特別研究員奨励費(課題番号 1501202) および特定課題研究助成費(課題番号 2004B-879)に より行われた.本論文作成にあたり有益なコメントを いただいた宮本俊介氏(STARC),高橋宏政氏(富士 通研),高山秀一氏(松下),安川英樹氏(東芝),枝 廣正人氏(NEC)に感謝いたします.

#### 参考文献

- Diefendorff, K. and Dubey, P.K.: How Multimedia Workloads Will Change Processor Design, *Computer*, Vol.30, No.9, pp.43–45 (1997).
- Lee, R.B. and Smith, M.D.: Guest Editors' Introduction: Media Processing: A New Design Target, *IEEE Micro*, Vol.16, No.4, pp.6–9 (1996).
- MIPS Technologies, I.: New Degrees of Parallelism in Complex SOCs, Technical report, MIPS Technologies, Inc. (2002).
- Wall, D.W.: Limits of Instruction-Level Parallelism, Proc. 4th International Conference on Architectural Support for Programming Languages and Operating Systems (ASPLOS-IV) (1991).
- 5) Lappalainen, V., Hamalainen, T.D. and Liuha, P.: Overview of Research Efforts on Media ISA Extentions and Their Usage in Video Coding, *IEEE Trans. Circuits and Systems* for Video Technology, Vol.12, No.8, pp.660–670 (2002).
- Hammond, L., Nayfeh, B.A. and Olukotun, K.: A Single-Chip Multiprocessor, *IEEE Computer*, Vol.30, No.9, pp.79–85 (1997).
- 7) Nikitovic, M. and Brorsson, M.: An adaptive chip-multiprocessor architecture for future mobile terminals, *CASES '02: Proc. 2002 international conference on Compilers, architecture and synthesis for embedded systems*, New York, NY, USA, pp.43–49, ACM Press (2002).
- 8) 木村啓二,加藤孝幸,笠原博徳:近細粒度並列処 理用シングルチップマルチプロセッサにおけるプロ セッサコアの評価,情報処理学会論文誌,Vol.42, No.4, pp.692-703 (2001).
- 9) Kasahara, H., Obata, M. and Ishizaka, K.: Automatic Coarse Grain Task Parallel Processing on SMP using OpenMP, Proc. 12th Workshop on Languages and Compilers for Parallel Computing (2000).
- 10) 吉田明正,越塚健一,岡本雅巳,笠原博徳:階 層型粗粒度並列処理における同一階層内ループ間 データローカライゼーション手法,情報処理学会 論文誌,Vol.40, No.5, pp.2054-2063 (1999).
- Ishizaka, K., Obata, M. and Kasahara, H.: Coarse Grain Task Parallel Processing with Cache Optimization on Shared Memory Mul-

tiprocessor, *LCPC*, Dietz, H.G. (Ed.), Lecture Notes in Computer Science, Vol.2624, pp.352– 365, Springer (2001).

- 12) 中野啓文,小高 剛,木村啓二,笠原博徳: OSCAR CMP 上でのスタティックスケジューリ ングを用いたデータローカライゼーション手法, ARC2003-154-14, 情報処理学会 (2003).
- 13)小高 剛,内田貴之,木村啓二,笠原博徳:シン グルチップマルチプロセッサにおける JPEG エン コーディングのマルチグレイン並列処理,情報処理 学会論文誌:ハイパフォーマンスコンピューティン グシステム, Vol.43, No.Sig.6 (HPS5), pp.153– 162 (2002).
- 14) Zhang, N. and Wu, C.H.: Study on Adaptive Job Assignment for Multiprocessor Implementation of MPEG2 Video Encoding, *IEEE Trans. Industrial Electronics*, Vol.44, No.5, pp.726–734 (1997).
- Liao, H. and Wolfe, A.: Available Parallelism in Video Applications, *International Sympo*sium on Microarchitecture, pp.321–329 (1997).
- 16) Iwata, E. and Olukotun, K.: Exploiting coarse-grain parallelism in the MPEG-2 Algorithm (1998).
- 17) Sohoni, S., Xu, Z., Min, R. and Hu, Y.: A Study of Memory System Performance of Multimedia Applications, Proc. Joint International Conference on Measurement and Modeling of Computer Systems (SIGMETRICS-01/PERFORMANCE-01), ACM SIGMET-RICS Performance Evaluation Review, Vol.29, 1, pp.206-215, ACMPress (2001).
- 18) Lee, C., Potkonjak, M. and Mangione-Smith, W.H.: MediaBench: A Tool for Evaluating and Synthesizing Multimedia and Communications Systems, 30th International Symposium on Microarchitecture (MICRO-30) (1997).
- 19) Shivakumar, P. and Jouppi, N.P.: CACTI 3.0:An Integrated Cache Timing, Power and Area Model, Wrl-2001-2, Compaq Computer Corporation Western Research Laboratory (2001).
- 20) Kimura, K., Wada, Y., Nakano, H., Kodaka, T., Shirako, J., Ishizaka, K. and Kasahara, H.: Multigrain Parallel Processing on Compiler Cooperative Chip Multiprocessor, Proc. 9th Workshop on Interaction between Compilers and Computer Architectures (INTERACT-9), pp.11–20 (2005).

(平成 16 年 9 月 24 日受付)(平成 17 年 7 月 4 日採録)



小高 剛(正会員) 昭和 52 年生.平成 11 年早稲田大 学理工学部電気電子情報工学科卒業. 平成 11 年(株)ユニシアジェックス 入社.平成 12 年同社退社後,早稲 田大学大学院理工学研究科入学.平

成 17 年早稲田大学大学院理工学研究科電気工学専攻 博士課程修了.博士(工学).平成16年同大学理工学 部助手.平成17年株式会社東芝入社.現在に至る.



中野 啓史(学生会員)

昭和 52 年生.平成 13 年早稲田大 学理工学部電機電子情報工学科卒業. 平成 15 年同大学大学院理工学研究 科電気工学専攻修士課程修了.平成 15 年同大学院博士課程進学.現在に

至る.



木村 啓二(正会員)

昭和47年生.平成8年早稲田大 学理工学部電気工学科卒業.平成13 年同大学大学院理工学研究科電気工 学専攻博士課程修了.博士(工学). 平成11年同大学同学部助手.平成

16年同大学理工学部コンピュータ・ネットワーク工学 科専任講師.平成17年同助教授,現在に至る.マル チグレイン並列処理用チップマルチプロセッサアーキ テクチャに関する研究に従事.



笠原 博徳(正会員)
昭和 32 年生.昭和 55 年早稲田大
学理工学部電気工学科卒業.昭和 60
年同大学大学院博士課程修了.博士
(工学).昭和 58~60 年同大学助手.
昭和 60 年日本学術振興会第1回特

別研究員.昭和61年早稲田大学理工学部専任講師.昭 和63年同大学助教授.平成9年同大学教授.現在 CS 学科教授,アドバンストチップマルチプロセッサ研究所 所長.昭和60年カリフォルニア大学バークレー,平成 元~2年イリノイ大学 Center for Supercomputing R & D 客員研究員.昭和62年 IFAC World Congress 第 1回 Young Author Prize,平成9年情処坂井記念特別 賞,平成16年 STARC 共同研究賞受賞.主な著書『並 列処理技術』(コロナ社).情報処理学会:ARC 主査, 論文誌 HG 主査,会誌 HWG 主査,ACM: ICS Program Vice Chair, IEEE: CS Japan Chair,文科省: 地球シミュレータ中間評価委員,経産省/NEDO:コ ンピュータ戦略 WG 委員長,"並列化コンパイラ" "マルチコア"プロジェクトリーダ等.