# **FPGA**を用いた**HDMI**向け低遅延映像同期システムの 設計と実装

徳差 雄太<sup>1,a)</sup> 松谷 健史<sup>2</sup> 空閑 洋平<sup>2</sup> 中村 修<sup>3</sup>

#### 受付日 2014年11月21日, 採録日 2015年5月9日

概要:遠隔地間におけるより複雑なインタラクションのために,低遅延な映像通信システムがますます求 められている.一般的な民生用カメラではクロックを同期するためのクロック入力が利用できないため, 送受信間で発生するクロックの誤差を吸収するバッファが必須となり,そのバッファリングによって通信 遅延が増加していた.そこで,本論文では,民生用カメラおよびディスプレイを用いて,HD 画質の非圧 縮伝送を行うための低遅延映像通信システムを市販の FPGA ボードを用いて設計実装した.送受信間の映 像同期信号のジッタを最小限に抑えるための同期システムを FPGA 上に実現し,受信側のバッファを最小 限に抑えている.本映像通信システムの通信遅延とそのジッタを高輝度 LED と照度センサを用いて計測 したところ,カメラとディスプレイを除くシステム間における遅延を1ms 以内に抑えることができた.こ れは同期機構を用いない市販の映像通信システムにおける遅延のたかだか 5%であり,この差は体感的に も有意である.

キーワード:FPGA, HDMI, 映像同期機構, 映像コミュニケーションシステム

# Design and Implementation of An FPGA-Based Low-Latency HDMI Video Synchronization System

YUTA TOKUSASHI<sup>1,a)</sup> TAKESHI MATSUYA<sup>2</sup> YOHEI KUGA<sup>2</sup> OSAMU NAKAMURA<sup>3</sup>

#### Received: November 21, 2014, Accepted: May 9, 2015

**Abstract:** A low-latency video communication system is a key enabler for sophisticated interactions between remote places. Because consumer video camera products typically do not have clock-input interfaces for the clock synchronization, a dedicated video frame buffer is required to absorb the clock skew between two systems, resulting in a longer communication latency. In this paper, we design and implement a low-latency uncompressed HD quality video communication system using an FPGA board for consumer video cameras and displays. The proposed video synchronization mechanism is implemented on the FPGA-based system in order to reduce the jitter between the sender and receiver even with a small frame buffer. The communication latency and jitter are evaluated using a super luminosity LED and an illuminance sensor. The results show that the communication latency (without those of camera and display themselves) is reduced down to 1 ms, which is corresponding to only 5% of that in a commercially-available video communication system. This latency reduction is significant for interactions between users.

Keywords: FPGA, HDMI, video synchronization, video communication system

慶應義塾大学理工学研究科

1

- Keio University, Yokohama, Kanagawa 223–8522, Japan <sup>2</sup> 慶應義塾大学政策・メディア研究科
- Keio University, Fujisawa, Kanagawa 252–0882, Japan <sup>3</sup> 慶應義塾大学環境情報学部
- Keio University, Fujisawa, Kanagawa 252–0882, Japan <sup>a)</sup> tokusasi@arc.ics.keio.ac.jp

# 1. はじめに

IP ネットワーク上で使用される映像コミュニケーション システムは、遠隔地とのビデオ通話、複数地点間を接続す る遠隔会議、遠隔授業など様々な用途で利用されている. さらに、人とマシン間を接続する遠隔ロボットの操作や遠 隔医療のようなより複雑な遠隔地間の協調作業での利用が 検討されている.このような遠隔地間のインタラクション の実現には、映像や音声の高品質化に加えて、インタラク ションに直接影響を与えるカメラ、送信機、受信機、ディ スプレイに関する総合的な遅延の削減が重要である.

インターネットを用いたこれまでの映像コミュニケー ションシステムでは、帯域を節約するためにコーデックに よる圧縮処理が行われることが多かった [9], [11]. 一方, ネットワークの広帯域化にともない、ローカルエリアネッ トワーク内で1Gbps や10Gbpsといった広帯域な通信の 利用が可能となり、HD 品質の数Gbpsにおよぶ非圧縮デー タの伝送が可能となった [14], [19]. さらに、民生用カメ ラやディスプレイの映像入出力として HDMI が採用され, HD 画質の非圧縮な映像や音声,副次情報を容易に扱える ようになった.

本論文では、インタラクションをともなう映像アプリ ケーションへの応用を想定し、低遅延な映像伝送システム を広帯域な IP (Internet Protocol) ネットワーク上に民生 用カメラとディスプレイを用いて実現する.従来の非圧縮 な映像の IP 伝送システムにおいて、業務用カメラおよび ディスプレイでは映像同期用マスタクロックと同期し、送 受信間で映像同期信号の調整を図り、低遅延な映像通信を 実現している.しかし、民生用カメラにはクロックを同期 するクロック入力がないため、送受信間は異なるクロック ソースで動作する映像同期信号で映像描画を行う必要があ る.そのため、受信側ではクロックの誤差を吸収するため の1フレーム分のバッファが必要であり、2.1 節で述べる ように映像コミュニケーションシステムにおける遅延の要 因となっていた.

本論文では, 民生用カメラおよびディスプレイを想定し, HDMI 向けの低遅延な映像コミュニケーションを実現する ために、非圧縮映像の IP 伝送用ハードウェアを設計、実装 する.上述した遅延の要因となるバッファを削減するため には、送受信間の映像同期信号のジッタを最小限に抑え、 より細かい時間粒度でクロック補正を繰り返す必要があ る. そこで, 受信側においてフレームごとに映像同期信号 を補正し、同期を図る映像コミュニケーションシステムを 実現した.実装には汎用の FPGA ボードを用い,本システ ムはこの FPGA ボード単体で動作する.本システムにお ける送受信間の映像同期信号のジッタを評価した結果, 遅 延のジッタを 31.8 ms 程度にまで抑えることができた.ま た,映像コミュニケーション全体の遅延を1ms以内に抑 えることができ、これは LAN 環境において本同期機構を 用いない Polycom HDX と比較して 5%の遅延である.こ の遅延差は有意であり、明らかに体感できるほどの低遅延 化を実現できた.

本論文の構成は以下のとおりである.2章では、映像同

# 2. 関連研究

本論文で想定する映像コミュニケーションシステムでは, 遠隔地と1対1の映像コミュニケーションを行うものとす る.図1に典型的な映像コミュニケーションシステムにお ける遅延の内訳を示す[7].映像コミュニケーションシステ ムにおける遅延は,入力デバイスであるカメラの Capture に相当する遅延,Encode処理遅延,Internetにおけるネッ トワーク伝搬遅延,Decode処理遅延,表示デバイスであ る液晶ディスプレイでのDisplay(描画処理)遅延に大別 できる.ネットワーク処理に要する遅延を除いても132 ms もの遅延が生じている.なお,映像コミュニケーションシ ステムにおける遅延は,実際にはコーデックや使用して いるデバイス機器にも依存する.文献[12]では,Google+ やiChat,Skype映像システムにおける遅延は180 ms から 270 ms 程度であると報告している.

# 2.1 映像コミュニケーションシステムにおける遅延の分類 上述のとおり,映像コミュニケーションに影響を与える 遅延の要素は以下のように分類できる.

- (1) 入力デバイスによる Capture 遅延
- (2) Encode 処理におけるフレーム間圧縮でのバッファリング遅延
- (3) OS レベルでのネットワークプロトコルスタック処理 の遅延
- (4) Decode 処理における遅延
- (5) ネットワーク (Internet) 伝搬遅延およびパケットロ ストによる遅延
- (6) Display 描画およびカメラ入力の映像同期信号のずれ
  による遅延

(1) は映像入力デバイスであるカメラに起因する遅延で ある.カメラの撮影素子であるイメージセンサは多数の受



図 1 映像コミュニケーションシステムの遅延(文献 [7] の図 1 より 引用)

Fig. 1 Latency on video communication systems (Copied from Fig. 1 in Ref. [7]).

光素子によって構成されており,それぞれの受光素子は光 エネルギーの明暗に対する電荷を発生する. RGB 変換, YC 変換や色差変換,スケーラ処理を経て出力インターフェ イスに出力される.

(2) は送信側マシンにおけるコーデックに起因する.と くに遅延の要因となるのは H.264 などで行われるフレーム 間圧縮である.数フレーム分の差分を予測するために数フ レーム分のバッファを要し、そのバッファリングによって 遅延が生じる.具体的には、1 フレーム分のバッファを満 たすために 60 fps で約 16.6 ms, 30 fps で約 33.3 ms の遅延 が生じる.

(3) はネットワークプロトコルスタック処理に起因す る遅延である. 文献 [1] は, Linux Kernel v3.5 系のネット ワークプロトコルスタック処理の遅延について, UDP の 場合に数 10 us から数 ms のジッタが発生すると報告して いる. このようなジッタは, ソフトウェアでプロトコルス タックを処理しているため, 他のプロセスとのスケジュー リングや割り込みに依存して生じていると考えられる.

(4)は受信機のコーデックのデコード処理に起因する遅 延である.(2)と同様にコーデックを利用することで、デ コードにおける処理の遅延が発生している.

(5) はネットワーク上のスイッチやルータ,物理ケーブ ル長に起因する遅延である.とくに輻輳が発生した場合, ネットワーク遅延やジッタの原因となる.

(6) はディスプレイの表示機構に起因する遅延である. ディスプレイ内において,映像入力端子である HDMI から 入力された信号には,画像音声信号処理,スケーラ処理, TCON 基盤への映像出力といった処理が行われ,そのため の遅延が生じる.

本論文では、上述した(2),(3),(4)の遅延を削減する 手法を議論する.(1),(5),(6)はそれぞれカメラ、ネッ トワーク、ディスプレイに固有の遅延であり、これらの遅 延を削減することは本論文の範囲を超える.図2に本論





文で目指す理想的な遅延のタイムチャートを示す. X は LAN を利用したときのネットワーク伝搬遅延であり, S は X を除くシステム遅延である.本論文では(2)および(4) で解説したコーデックを用いない非圧縮伝送し,(3)で解 説したネットワークプロトコルスタックをハードウェアで 処理し,パイプライン処理することで,遅延を削減する. さらに(1)と(6)の映像同期信号のタイミングを考慮に含 めるフレームの同期を行う機構を実装することで,低遅延 を実現する.したがって,固有遅延である(1),(5),(6) を考慮に含めつつ,Sが最小となるように全体が低遅延と なる設計を目指す.

#### 2.2 映像コミュニケーションシステムの遅延評価手法

文献 [17] では、送受信側のフレーム数をカウントする ことで、送受信間で発生した遅延を計測している.これに よって映像コミュニケーションにおける終端デバイスであ るカメラやディスプレイを含む総合的な遅延を計測でき る.しかし、計測の精度がシステムの映像フレームレート に制限され、30 fps および 60 fps の場合の精度はそれぞれ 33.3 ms および 16.6 ms に制限される.

一方,本論文における評価手法として,LEDと照度センサを用いた光計測器を使用する.送信機側のカメラレンズにLEDを固定し,受信側のディスプレイの左上に照度センサを固定する.FPGAのGeneral Purpose I/OピンにLEDと照度センサを接続しておき,LEDが点灯してから照度センサが感知するまでのクロックサイクル数をカウントする.FPGAの動作周波数が100MHzのとき,1クロックサイクルあたり10nsの十分な計測精度でカメラから送信機,受信機そしてディスプレイまでの伝送遅延を計測することが可能である.

## 2.3 映像クロック同期化技術

放送局内の映像機器は、マスタクロックを用いて同期される.しかし、放送局間で映像を共有して編集し、放送する場合は、放送局それぞれが独立したマスタクロックを用いるため、送受信間で映像クロックにおける位相のずれが生じる.このずれに起因して、受信側の映像を一時的に保存するフレームバッファの過不足が発生する可能性がある.そこで、文献[15]と[16]で用いられている映像クロック同期化技術では、受信側で映像パケットがフレームバッファに格納される度合いを観測し、クロック差を検出、さらに映像クロック制御パケットを生成し、送信側にフィードバックする.送信側では、受信側からのフィードバック に基づいて補正された映像クロックをカメラに与えることで、理想的な映像クロック同期を実現している.

しかし,上記の文献のように受信側からのフィードバックに基づいて送信元カメラの映像出力のクロック周波数を 補正可能な環境は,業務用カメラに限られており,用途も 放送業務用に限られる.本論文で想定している民生用カメ ラは映像クロックの入力端子を備えておらず,送信側カメ ラの映像出力用のクロック周波数を補正する手法は民生用 カメラには適用できない.したがって,本論文で提案する 手法では,送信側の映像出力のタイミングに合わせて IP パケットを生成し,受信側での IP パケット到着タイミン グに基づいて受信側のピクセルクロックを修正する.これ によって受信側に必要なバッファを1フレーム未満に抑え ることもできる.

# 3. 映像同期信号の同期機構:RV-SYNC

本章では、クロック入力を備えていない民生用 HD カメ ラ向けに低遅延な映像通信を実現する映像同期システムで ある Remote Video Syncronization (以下, RV-SYNC)を 提案する.

## 3.1 ライン単位処理

映像データを IP を用いて伝送するため, Ethernet や IP ヘッダなどのオーバヘッドを含めて映像パケットのサイズ を決定する必要がある.以下では,映像データを伝送する にあたり適切なパケットサイズを試算する.ただし,後述 する副次情報は,パケットサイズに依存するため試算には 含めない.UDP ヘッダを含むネットワーク制御情報は 64 バイトである.ここで  $x \in$  UDP データグラムサイズとす るとき,1パケット送信すると (64 + x)バイト分の帯域 を消費する.1GbE (Gigabit Ethernet)を想定しているた め, pパケット送信したときのビットレートが1Gbit 以下 になる必要がある.また,1秒間に伝送する映像データの 総量 (xp)は,1秒あたりのフレーム数 (60 fps),1フレー ムあたりのピクセル数 (1,280×720),1ピクセルあたりの データ量 (16 bit カラー深度)によって決まる.

 $\begin{cases} 8(64+x)p \le 10^9\\ xp = 1280 \times 720 \times 2 \times 60 \end{cases}$ 

上記の連立方程式を計算すると, $x \ge 491.247$ となり, UDP データグラムサイズを 492バイト以上にする必要がある.

本システムでは、映像フレームにおけるライン単位の処 理[18]を目指す.本論文におけるラインとは、映像フレー ムにおける水平ラインを示す.つまり、1ラインの処理時 間内にパケット送信を完了する必要がある.映像のパケッ ト化では、1ライン、もしくは、その整数分の1など区切り の良いサイズでパケット生成すると効率が良い.また、パ ケットごとに副次情報として、フレーム内におけるパケッ ト映像データの位置情報を表す Index、データフォーマッ ト、解像度情報が必要となる.しかし、パケットサイズが 小さいほど、映像パケットの位置情報を示す Index の数が 抑えられて副次情報サイズを小さくできる.以上から、1 パケットに1ラインの半分のピクセルに相当する 640 ピク セル (1,280 バイト)を格納することにした.

## 3.2 送受信間のピクセルクロックの制御問題

送信機の映像処理に使用するクロックソースはカメラ内 蔵のクロックを用いる.受信機では、ディスプレイと同期 するピクセルクロックを生成する.このクロック周波数と して CEA-861 で定義されている値が一般的に使用される. 本論文では、1,280 × 720 60 Hz Progressive の映像モード を想定し、74.25 MHz のピクセルクロックを使用する.し かし、送受信機間で異なるクロックソースを使用している ため、以下にあげる 2 つの問題が懸念される.

- (1) カメラによるピクセルクロックが仕様と異なる可能性 がある.
- (2) 送受信間で動作する映像同期信号が異なるため,受信 側で FIFO バッファの過不足が生じる.

そこで、本論文で対象とする解像度モードのピクセル クロック周波数が CEA-861 のパラメータに適合している かを検証した.カメラの映像出力インターフェイスであ る HDMI では、4 レーンのうち1 レーンをクロック伝送 用ラインとして使用している.このクロック伝送用ライン は、映像の解像度に適するピクセルクロックを送信機側 へ伝送している.ここで、カメラの内蔵クロックから生成 されたクロックを FPGA ボードに与え、カメラからのク ロックを計測する.この計測で使用するカメラは Sony 社 HXR-NX70J [2] である.また、この計測で確認する周波 数値は、CEA-861 で標準化されている 1,280 × 720 60 Hz Progressive での動作周波数である 74.25 MHz とする.

HDMI で伝送される TMDS (Transition Minimized Differential Signaling) 信号は,デコーダにてピクセルクロッ クや映像同期信号,映像データに変換される.FPGA ボー ドが備えている 100 MHz の基準クロックを用いて1秒をカ ウントし,ピクセルクロックのクロックサイクル数を求め る.複数回の試行の結果,Sony HXR-NX70J の HD カメ ラが 1,280 × 720 Progressive 60 fps で使用するピクセルク ロックは約 69.68 MHz であった.この値は 74.25 MHz か ら約 5 MHz もずれている.送信側でこのピクセルクロッ クを使用し,受信側で 74.25 MHz を使用した場合,受信 FIFO バッファは頻繁に不足の状態が発生し,安定した描 画ができない.

さらに、送信機から伝送する映像データの走査位置と、 受信機で描画しようとしている走査位置のタイミングは同 期されていない.これは送受信間で使用している映像同期 信号が異なり、映像を描画するタイミングも独立している からである.このため、つねに受信側で FIFO バッファの 過不足が発生する.したがって、(1) および(2)の問題を解 決するために、送受信間で映像フレームの描画を開始し始 めるタイミングを同期する手法を検討する.これを実現す

# 表1 CEA-861 映像タイミングパラメータ (1,280×720 Progressive 60 Hz)

Table 1CEA-861 video timing parameters  $(1,280 \times 720 \text{ Progressive 60 Hz}).$ 

| Vsync Pulse Width<br>Vsync Front Porch<br>Vsync Back Porch | 5<br>20 |
|------------------------------------------------------------|---------|
| Vsync Pulse Width<br>Vsync Front Porch<br>Vsync Back Porch | 5<br>20 |
| Vsync Front Porch<br>Vsync Back Porch                      | 20      |
| Vsync Back Porch                                           |         |
| II                                                         | 5       |
| Hsync Pulse Width                                          | 40      |
| Hsync Front Porch                                          | 220     |
| Hsync Back Porch                                           | 110     |





Fig. 3 Delay of video synchronization signals between transmitter and receiver.

る機構を次節で説明する.

#### 3.3 映像同期機構

本節では,送信側の映像同期信号を IP パケットの到着 時間に同期させる機構を設計する. CEA-861 における映 像同期信号のパラメータでは,各信号の仕様が決まってい る.表1に1,280×720 60 Hz Progressive における映像同 期信号のパラメータを示す.

それぞれのパケットに、映像フレームにおける位置を識 別する 12 bit 長の Index 番号を付加する.また、映像ピク セルの深度である 16 bit 長ごとに、パケットに付加された Index 番号(12 bit)およびピクセルデータ(16 bit)を格 納するために 28 bit 幅の FIFO バッファを設ける.FIFO の Depth はピクセルデータが 25 ラインを格納できる容量 (Depth: 32,768)とする.受信側の MAC(Media Access Control)の処理を終えたデータを受信 FIFO バッファに 格納する.

図3は、カメラとディスレプイ間を流れる理想的な映 像同期信号のタイミングを表している.送信側カメラは HDMIを介してFPGA上の送信機に映像を送信している. また、送信機はカメラから入力された映像を送信 FIFO バッファ(Depth: 2,046)に1ラインごとにバッファリン グし、1/2 ラインごとにパケット化して送信している.一 方、受信機では、FPGA上の受信機でピクセルクロック を生成し,独自のタイミングで映像同期信号が動作する. RV-SYNCでは、パケット到着のタイミングでパケット内 に含まれる index (12 bit)を識別し、先頭パケットであれ ば映像同期信号を再生成する.具体的には、先頭パケット の到着タイミングで映像同期信号をリセットし、垂直同期 信号 (vsync)を立ち上げて補正する.したがって、映像 フレームの先頭パケットを受信してから、描画開始まで 25 ライン分のブランキング期間 (Vsync Pulse Width 5 ライ ン, Vsync Front Porch 20 ライン)があり、この期間に受 信した映像データは受信 FIFO バッファに格納される.そ の結果、図 3 に示すように送受信機間で生じる映像同期信 号の遅延を 26 ライン程度(送信側 1 ライン、受信側 25 ラ イン) に抑えることができた.

## 3.4 パケットロスト発生時の映像同期信号の復旧

RV-SYNCでは、UDPパケットの到達タイミングによっ て受信側で映像同期信号を再生成している.パケットロス トなどにより映像フレームの開始パケットを受信できな かった場合,受信側で映像同期信号が生成されない.また, 映像同期信号が途中で途絶えると,受信機とディスプレイ の同期が切れて,ディスプレイへの安定した映像出力が維 持できない.したがって,パケットロスト発生時に映像同 期信号を復旧する仕組みが必要である.

そこで RV-SYNC では映像フレームの開始ピクセルを含 むパケットが遅延して到着した場合,もしくはパケットロ ストが発生した場合,表1に示すように垂直同期信号を一 定に保つために Back Porch 期間(水平ライン5本分)が 終わり次第,垂直同期信号をアクティブにすることにした. これにより,パケットロストが発生したときでも,映像同 期信号は一定した動作を維持することができる.

# 3.5 理想的な映像描画のタイミング

RV-SYNCでは受信バッファ量を最小限に抑えるために, 送受信間で映像描画のタイミングを合わせている.理想的 には,1/2 ラインを含む映像パケットが受信機に到着した 直後にその1/2 ラインを描画できれば合理的であるが,こ こでは1 フレームを描画する前にフレームごとに映像同期 信号の修正を行うため,映像同期信号を安定させるために 受信側に25 ライン分の遅延が生じる.

これを確認するために, RV-SYNC による HDMI 映像 入力と送信のタイミング, 受信と HDMI 映像出力のタイ ミングのシミュレーションを行った. 論理回路シミュレー タ Icarus Verilog によるシミュレーション結果を波形表示 ツール gtkwave を使用して表示した. 図 4 に送信機のパ ケット送出タイミングを示す. 図中の vde (Video Data Enable) 信号は, 映像データのアクティブ期間を示して いる. TXEN は Ethernet の Data Enable 信号を示してい る. Line1 がアクティブのとき, ピクセルデータは送信用



図 4 送信機のパケット送信タイミング Fig. 4 Timing of packet transmission on transmitter.





FIFO に蓄積される.1 ライン分のピクセルデータが FIFO に格納されたタイミングで,Ethernet 送信モジュールは映 像データのパケット化を開始する.1 ラインを2パケット に分割するため,Line1-1パケットとLine1-2パケットの間 の IFG (Inter Frame Gap) はその最小値である12クロッ クとして設計している.図4のタイミングチャートより, 1 ラインのビデオアクティブ期間に2パケットの送信が確 認できる.

図 5 に受信側で発生する RV-SYNC による映像同期信号の遅延を示す.受信側では、1 ライン目のパケット到着のタイミングで映像同期信号を修正できており、この修正したタイミングで垂直同期信号がアクティブになる.この結果, Vsync Pulse 幅5 ライン分, Vsync Front Porch 20 ライン分の計 25 ライン分遅延してから1 ライン目の描画を開始する.

# 4. FPGA ボードへの実装

本論文では, RV-SYNC を用いた低遅延映像コミュニ ケーションシステムのプロトタイプとして, Xilinx 社の FPGA である Spartan-6上で動作する HDMI-TS (HDMI Transport System)を開発した. 使用した FPGA ボードは Digilent 社 Atlys ボードであり, Gigabit Ethernet のポー トを1つ, HDMI Input 端子を1つ, HDMI Output 端子



図 6 HDMI-TS のブロックダイアグラム Fig. 6 Block diagram of HDMI-TS.

# を2つ備えている.

HDMI-TS は、送信機と受信機の両方の機能を搭載して いる.ボード上の入力用および出力用 HDMI コネクタに は、HDMI ケーブルを用いてカメラおよびディスプレイを それぞれ接続し、RJ-45 コネクタには UTP ケーブルで IP ネットワークに接続している.図7 に実装したシステム の動作風景を示しており、スイッチングハブを経由した IP ネットワーク上で HD 画質(1,280×720 60 fps)の非圧縮 映像伝送を行っている.なお、IP ネットワークを利用した システムであるため、ネットワークに接続された汎用 PC 上のソフトウェアでも映像データの送受信自体は可能であ る.ただし、通信相手が汎用 PC 上のソフトウェアの場合、 本論文で提案するハードウェア上の機構である映像同期機 構は利用できない.

HDMI-TS のブロックダイアグラムを図 6 に示す. 具体 的には以下の項目を実装する.

- (1) ネットワークプロトコルスタックのハードウェア実装
- (2) 映像フレームのラインごとのパイプライン処理
- (3) RV-SYNC による映像同期信号の同期機構

#### 4.1 HDMI-TS の仕様

HDMI-TS の仕様を**表 2** に示す. 民生用 HD カメラで は, HDMI 出力のカラーフォーマットとして YUV422 が 一般的に使用されている. 映像データは, このフォーマッ



図 7 HDMI-TS 動作風景 Fig. 7 Apearance when HDMI-TS is running.

表 2 HDMI-TS の仕様 Table 2 Specification of HDMI-TS.

| 映像入力      | HDMI                           |
|-----------|--------------------------------|
| 映像出力      | HDMI                           |
| 対応解像度     | $1,280 \times 720$ Progressive |
| カラーフォーマット | YUV422                         |
| フレームレート   | $60\mathrm{fps}$               |
| ビットレート    | 約 885 Mbps                     |
| ネットワーク    | 1000BASE-T                     |
| 伝送方式      | UDP/IP                         |

トのまま非圧縮で IP 伝送され,受信側で HDMI を介して ディスプレイに表示される.この際,HDMI の物理層であ る TMDS において,AUX (音声や副次情報を扱う)を有 効にしていないため,カラーフォーマットは RGB 形式で 表示される.したがって,受信側では YUV 形式から RGB 形式へのカラー変換を行っている.

#### 4.2 TMDS デコーダおよびエンコーダ

本 HDMI-TS では、映像入出力に HDMI を採用する. HDMI は TMDS の信号規格によりエンコードおよびデ コード処理を行う. Xilinx 社が提供している TMDS のエ ンコーダ・デコーダのリファレンスアプリケーション [3] を もとに TMDS デコーダとエンコーダの設計,実装を行った.

# 4.3 Ethernet $\forall j = \mathcal{V}$

カメラから入力された映像は TMDS でデコードされ た後,映像データがビデオバッファに入力される.この バッファはピクセルクロックと Gigabit Ethernet で使用 されるクロックの緩衝として使用される.バッファリン グされた映像データは GMII (Gigabit Media Independent Interface) モジュール内に実装された UDP プロトコルス タックに基づいてパケット処理が行われる.

#### 4.4 論理合成結果

本システムでは, Xilinx 社の FPGA である Spartan-6

表 3 論理合成結果 Table 3 Result of synthesis.

| 項目              | 使用数   | 全体数        | 占有率 |
|-----------------|-------|------------|-----|
| Slice           | 759   | 6,822      | 11% |
| Slice Registers | 1,604 | $54,\!576$ | 2%  |
| Slice LUTs      | 1,895 | 27,288     | 6%  |
| BlockRAM        | 57    | 116        | 49% |

XC6SLX45上に実装した.論理合成に使用したツールは Xilinx ISE 14.4 である.本システムは,GMII モジュール では125 MHz で動作し,映像処理ではピクセルクロックで ある74.25 MHz で動作する.本実装の論理合成結果を表3 に示す.既存のMACのIP coreを使用せず,映像通信専 用のEthernet MACを実装したため,全体的なスライスの 使用割合が少なく,ロジックの使用割合が11%となってい る.また,送受信両方にバッファとして合計26ラインを格 納できるFIFOを利用しているため,使用したBlockRAM の使用割合が高く49%となっている.

使用した BlockRAM の割合は,送信機側で 0.9 割,受信 機側で 9.1 割を占めている.送信機側では,カメラから入 力されるピクセルを1ラインごとにパケット化するために 1 ライン分のピクセルおよびピクセルの位置を示す Index をバッファしている.送信側ではバッファサイズは1ライ ン分で十分である.受信機側の FIFO バッファは,ネット ワーク処理と映像処理の緩衝と同期の役割を担っており, 25 ライン分のピクセルとピクセルの位置を示す Index を 格納している.さらにバッファサイズを増やすことで,パ ケットが到達するゆらぎを吸収できると考えられる.本シ ステムで使用した FPGA では,最大で現在の2倍程度まで FIFO バッファのサイズを拡大することが可能で,パケッ トの到達のタイミングを吸収できると考えられる.

## 5. 評価

本論文で提案した映像同期機構である RV-SYNC を実 装した HDMI-TS を用いて LAN 環境において映像通信を 行い,総合的な遅延を計測する.受信側は異なるクロック ソースで動作する映像信号を使用しているため,映像フ レーム最大1フレーム分の遅延が発生する可能性があった. 評価項目は以下の2点である.

- (1) 提案手法 RV-SYNC により映像同期信号のジッタを改 善できているかどうか確認する.
- (2)本システム HDMI-TS により、カメラからディスプレ イを含む総合的な遅延を見積もり、遅延が改善されて いるかどうか確認する。

# 5.1 遅延評価環境

2.2 節で述べたとおり,送受信間の遅延を示すフレーム差 をカウントする手法では,フレームレートが 60 fps および



図 8 ディスプレイ遅延計測の外観 Fig. 8 Appearance when display processing delay is measured.

30 fps のとき, 計測精度はそれぞれ 16.6 ms および 33.3 ms であった. 遅延評価手法として以下の 2 つの候補が考えら れる.

(1) 高速度撮影によるフレーム差の計数

(2) 受光素子による遅延計測回路

(1)では、送信側のディスプレイと受信側のディスプレ イの両画面を計測用カメラで撮影し、送受信間のフレーム 数の差を検出する.映像伝送実験で遅延を計測する際に、 この手法が用いられてきた[17].しかし、この手法は視覚 的にフレームごとの差異を判断するため、定量的な計測が 難しい.

(2)では、受光素子の1つである照度センサを用い、照 明の光を発してから照度センサが認識するまでの遅延を FPGAによる計測回路で測定する.送信側のカメラに白色 高輝度 LED を設置し、受信側のディスプレイの該当箇所に 照度センサを設置する.この LED と照度センサは FPGA ボードの GPIO に接続しておき、LED が点灯してから照 度センサが認識するまでのクロックサイクル数を求める. また、計測回路内に状態を持たせることで、複数回におよ ぶ計測が可能となり、(1)と比べて、定量的な映像遅延の 計測がしやすい.

本論文では,総合的な遅延を計測に加えて,遅延のジッ タも定量的に計測する.したがって,上述の(2)で示す計 測回路を実装し,総合的な遅延を計測することにした.

図 8 に示すように、カメラのレンズにおいて映像走査の 始点となるポイントに LED を設置する.同様に、ディス プレイの走査開始位置である左上に照度センサ [6] を設置 する.遅延計測のブロックダイアグラムを図 9 に示す.図 の破線部は LED の光の進行および遅延を表しており、実 線部は伝送ケーブル内の遅延を表している.



Fig. 9 Delay measurement environment.

#### 5.2 計測器補正

本計測器では, FPGA上に実装されたロジックにより高 輝度白色 LED が点灯してから,照度センサが反応するま での時間を計測する.この時間には,ロジックが点灯開始 の信号を送ってから,LED が点灯するまでのLED 反応時 間と照度センサが反応して電気信号に変換するまでの照度 センサ反応時間が含まれている.このことから,計測結果 に誤差が生じる可能性があり,計測器の補正が必要である.

そこで照度センサと LED を直接つなぎ,計測器の誤差 を計測する.480 回の試行により,平均 9.6 µs,標準偏差 0.5 µs となった.終端デバイスを含む映像コミュニケー ションシステムの遅延を計測する際,関連研究の結果を考 慮すると,ms オーダでも評価可能であると考えられる.し かし,内部の遅延を検討する際に,µs オーダの計測精度が 求められる可能性があるので,内部の遅延を検討する際に この補正値を適用する.

## 5.3 評価対象

HDMI-TS および既存の映像コミュニケーションシステ ムにおける総合的な遅延について評価,比較する.代表的 な映像コミュニケーションシステムとの比較として,こ こでは Skype, Polycom 社 HDX8000, webRTC フレーム ワークを利用したアプリケーション,DVTS [8], [10] を比較 対象とした.これらは LAN 環境で利用できるアプリケー ションである.なお,Skype は通話先を検索するためにイ ンターネット上のスーパーノードに接続する必要がある が,通話においては同じ LAN 内の通信と考えられるため LAN 環境での映像コミュニケーションと見なす [13].

表4に比較に使用するシステムを示す.システムによっ て、対応している解像度や映像フレームレート、コーデッ クが異なる.さらに専用のカメラがあるなど、すべての条 件をそろえて評価することは難しい.また、商用システム の内部遅延を外部から計測すること自体困難である.

そこで,図 10 に本評価で使用する遅延の定義を示す. まず最初に,映像コミュニケーションシステムを使用せず にカメラとディスプレイをビデオインターフェイスで接続 する(もしくは,直接カメラとディスプレイを直結できな

|        | HDMI-TS            | Skype              | webRTC             | DVTS             | Polycom              |
|--------|--------------------|--------------------|--------------------|------------------|----------------------|
| 解像度    | $1,280 \times 720$ | $1,280 \times 720$ | $1,280 \times 720$ | $720 \times 480$ | $1,920 \times 1,080$ |
| fps    | 60                 | 30                 | 30                 | 30               | 60                   |
| コーデック  | 非圧縮                | VP8                | VP8                | 非圧縮              | H.264                |
| カメラ    | HXR NX70J          | iSight             | iSight             | DCR-PC350        | EagleEye III         |
| ディスプレイ | Dell ST2210        | MacbookPro         | MacbookPro         | トリニトロン管          | KDL-40EX500          |



図 10 各システムにおける直結遅延の測定環境

Fig. 10 Direct delay measurement environment for each system.

表 5 映像コミュニケーションシステムの遅延計測結果 (us)

| l'able 5 | Mesurement result of latency on video communication |
|----------|-----------------------------------------------------|
|          | systems.                                            |

|            | HDMI-TS | DVTS        | Polycom |
|------------|---------|-------------|---------|
| 合計遅延 (A)   | 69,879  | 342,665     | 353,654 |
| 直結遅延 (B)   | 69,013  | $128,\!458$ | 333,880 |
| 通信遅延 (A–B) | 866     | 214,207     | 19,774  |

い場合にシステムを仲介し、プレビュー表示を行う)場合 を考える.このとき発生する映像の遅延を**直結遅延**と定義 する.一方,映像システムを利用して伝送を行った場合の 遅延を合計遅延と定義する.

#### 5.4 遅延評価

カメラやディスプレイ固有の遅延に依存しない,各映像 コミュニケーションシステム間で発生する映像通信の遅延 の計測結果を表5に示す.合計遅延は,カメラからディ スプレイを含んだ映像のIP伝送時間を示している.直結 遅延は,カメラとディスプレイを直結したときの伝送時間 を示している.計測では,合計遅延および直結遅延をそれ ぞれ400回計測し,その最大値を使用している.通信遅延 は,カメラとディスプレイを含まない送受信機の端末間の

表 4 評価対象 Table 4 Evaluation targets.

| 表 6   | 映信 | 象コミュ   | ニニケー    | ションシス     | くティ | ムの合語  | 計遅延の  | ジッタ      | (ms)   |
|-------|----|--------|---------|-----------|-----|-------|-------|----------|--------|
| Table | 6  | Jitter | of tota | l latency | on  | video | commu | nicatior | ı sys- |
|       |    | tems.  |         |           |     |       |       |          |        |

|     | HDMI-TS | Skype | webRTC | DVTS  | Polycom |
|-----|---------|-------|--------|-------|---------|
| 最大値 | 69.9    | 252.4 | 843.1  | 342.7 | 333.9   |
| 最小值 | 38.1    | 143.0 | 394.3  | 274.3 | 248.4   |
| 差分  | 31.8    | 109.4 | 448.8  | 68.4  | 105.2   |

遅延を示しており,合計遅延 (A) と直結遅延 (B) の差で表 される.

通信遅延は、コーデック、ネットワークプロトコルス タック、ネットワーク伝搬遅延を合計した遅延に相当す る.本実装では、通信遅延が理想的には26ライン分の遅延 (578 us に相当)になるように設計した.一方、実際に測定 した結果、本実装である HDMI-TS は866 us であった.こ れは直結遅延(カメラおよびディスプレイの内部遅延)の 測定誤差によるものであると考えられる.表5に示すとお り、ディスプレイおよびカメラを含まない HDMI-TS の遅 延(A-B)は合計遅延に比べて圧倒的に小さく、1 ms 以内 に抑えることができた.

Polycom はコーデックとして H.264 を使用しており,フ レーム間圧縮のフレーム予測により数フレームをバッファ している.また,ネットワークプロトコルスタックの遅延 の影響により遅延は約 20 ms であった. DVTS は約 214 ms の遅延であった.この結果より,本実装である HDMI-TS は Polycom の 5%の遅延にまで削減できたといえる.この 差は体感的にも有意である.

#### 5.5 ジッタ評価

表 6 は、映像コミュニケーションシステムのカメラから ディスプレイまでの合計遅延のジッタを示している.それ ぞれの項目について 400 回の遅延計測を行い、最大値と最 小値を示している.差分は、最大値と最小値の差を示して おり、合計遅延のジッタに相当する.また分散を計算した ところ、HDMI-TS では 45.7、DVTS では 240.3、Polycom では 228.0 となり、HDMI-TS では分散が小さいことが示 された.

本実装である HDMI-TS は,遅延のジッタは 31.8 ms で あった. これはカメラの 60 Hz の周期で行われるフレーム スキャン (16.6 ms に相当) および同周期で行われるディス プレイ内のフレームリフレッシュ(16.6 ms に相当)が原 因して発生するジッタであると考えられる. DVTS は送受 信機でコーデックによる処理を行っていない. DV フォー マットは DV 機器内部にてフレーム内圧縮に基づいてエン コードおよびデコードされるため遅延のジッタは 68.4 ms であり, Polycom よりも小さいと考察できる.

Skype, Polycom では、フレーム間圧縮に基づいてエン コードおよびデコードされるため、数フレームのジッタが あると考えられる. それぞれの遅延のジッタは、Skype が 109.4 ms, Polycom が 105.2 ms であった. この結果より、 HDMI-TS は遅延のジッタを 31.8 ms にまでに抑えること ができた. これは上述したカメラのフレームスキャンおよ びディスプレイのフレームリフレッシュのジッタである 33.3 ms に近似している. これとは別に最大1フレーム分 のジッタが発生する可能性があったが、ジッタなく伝送で きていると考察できる.

#### 5.6 議論

本論文では、1GbE での LAN 環境を想定して、提案同期 機構 RV-SYNC のプロトタイプを設計実装した.対象ネッ トワークを1Gbps から 10 Gbps, 40 Gbps に広帯域化した 場合でも、使用した同期機構をそのまま移植することで利 用可能である.

映像コミュニケーションとして,1Gbpsから10Gbpsへ 広帯域化することで4K(約6.9Gbps),40Gbpsでは8K (約31.8Gbps)に匹敵する解像度の非圧縮伝送が可能とな る.解像度が大きくなるにつれて,1フレームあたりの転 送量が増え,1フレーム分のバッファリングの量が増える. 本システムは,受信側に25ライン程度(4K解像度に対応 する場合,82ライン程度[4])を格納できるバッファサイ ズが必要である.そのため,4Kや8Kに解像度を拡張させ る場合,安価なFPGA内のリソースではバッファサイズが 足りないため,DRAM上にバッファを設ける必要がある.

また、1 Gbps の帯域幅にさらに音声パケットを追加す ることは、映像パケットのタイミングが固定であり、映像 データが帯域の9割を占めていることから困難である.し かし、カラーフォーマットを YUV422 から YUV411 に変 換するなど空間的圧縮を適用することで1 Gbps の帯域を 活用できる可能性もある.一方で、10 Gbps に広帯域化す ることで非圧縮映像に加えて音声パケットも伝送すること が可能となる.

本システムで使用した FPGA ボードでは 1GbE のネッ トワークインターフェイスを搭載しており,これに律速さ れて非圧縮による伝送が可能な解像度は 1,280 × 720 60 fps が限界である.専用機器への実装を検討する場合,上述し たように 10GbE のインターフェイスや 40GbE のインター フェイスを設計し,BlockRAM をより多く内蔵するハイエ ンドな FPGA を採用することで,今後普及してくる超高 解像度の映像の非圧縮伝送に対応できるシステムを実現で きる.またハイエンドな FPGA における BlockRAM を最 大限活用することで,パケットの到達タイミングのジッタ を回避することも可能である.

## 6. まとめ

本論文では、インタラクションをともなう映像アプリケー ションに応用できる低遅延な映像伝送システムを FPGA 上に設計実装した.民生用カメラやディスプレイでは、送 受信間の映像同期信号の同期が取れないため、送受信機に 1フレーム分のバッファを設ける必要があり、遅延の原因 となっていた.本論文では、IPネットワーク上で送受信間 の映像同期を実現するために、映像パケットの到着タイミ ングで受信側の映像同期信号を再生成する同期モジュール を設計した.送受信間の映像同期信号のジッタを評価した 結果、31.8 ms にまでに抑えることができた.また、シス テムにおける遅延は 1 ms 以下に抑えることができた.

なお, RV-SYNC を備えた HDMI-TS である本設計は Digilent 社が主催する FPGA 設計コンテストにおいて,国 内大会で優勝し,国際大会へ出場するなど実装の完成度に おいても高く評価された [5].

#### 参考文献

- Brandeburg, J.: A way towards lower latency and jitter, Proc. Linux Plumbers Conference (2012), available from <a href="http://www.linuxplumbersconf.org/2012/">http://www.linuxplumbersconf.org/2012/</a> wp-content/uploads/2012/09/2012-lpc-Low-Latency-Sockets-slides-brandeburg.pdf> (accessed 2015-01-25).
- Sony Corporation: HXR-NX70J, available from (http://www.sony.jp/nxcam/products/HXR-NX70J/) (accessed 2015-01-25).
- [3] Bob Feng: Xilinx Application Note XAPP495: Implementing a TMDS Video Interface in the Spartan-6 FPGA, available from (http://www.xilinx.com) (accessed 2015-01-25).
- [4] HDMI: HDMI specification version 1.4.
- [5] Digilent Inc.: Digilent Design Contest 2014.
- [6] 新日本無線株式会社(NewJRC):NJL7502L,入手先 (http://semicon.njr.co.jp/jpn/PDF/NJL7502L\_J.pdf) (参照 2015-01-25).
- [7] Mody, M., Swami, P. and Shastry, P.: Ultra-low Latency Video Codec for Video Conferencing, *Proc. Electronics, Computing and Communication Technologies*, pp.1–5 (2014).
- [8] Ogawa, A., Kobayashi, K., Sugiura, K, Nakamura, O. and Murai, J.: Design and Implementation of DV Stream over Internet, *Proc. Internet Workshop*, pp.255–260 (Feb. 1999).
- [9] Ren, Z., Liu, M., Ye, C. and Shao, H.: The Real Time Video Transmission System Based on H.264, *Proc. Web Information Systems and Mining*, pp.270–274 (Nov. 2009).
- Stream WG: DVTS Project, available from (http:// www.sfc.wide.ad.jp/DVTS/) (accessed 2015-01-25).
- [11] Wiegand, T., Schwarz, H., Joch, A., Kossentini, F. and Sullivan, G.J.: Rate-Constrained Coder Control and

Comparison of Video Coding Standards, *IEEE Trans. Circuits and Systems for Video Technology*, Vol.13, No.7, pp.688–703 (July 2003).

- [12] Xu, Y., Yu, C., Li, J. and Liu, Y.: Video Telephony for End-consumers: Measurement Study of Google+, iChat, and Skype, *Proc. Internet Measurement Conference*, pp.371–384 (Nov. 2012).
- [13] Zhang, X., Xu, Y., Hu, H., Liu, Y., Guo, Z. and Wang, Y.: Profiling Skype Video Calls: Rate Control and Video Quality, *Proc. INFOCOM*, pp.621–629 (Mar. 2012).
- [14] 原田啓司, 丸山 充:非圧縮 HDTV over IP 伝送技術 (i-Visto), 電子情報通信学会総合大会講演論文集, Vol.2006, No.2 (Mar. 2006).
- [15] 清水健司,原田啓司,南 陽:R&Dホットコーナー i-Visto による非圧縮 HDTV 映像の多地点間同期伝送に関する 共同実験,NTT 技術ジャーナル, Vol.17, No.3, pp.85-88 (Mar. 2005)
- [16] 釘本健司,小倉 毅,君山博之,川野哲生,清水健司, 丸山 充:非圧縮 HDTV-IP 伝送におけるフィードバッ ク制御の検討:応答性の高いストリーミングサーバの実 装と評価,電子情報通信学会技術研究報告 IE,画像工学, Vol.106, No.243, pp.13–18 (Sep. 2006).
- [17] 田中健二, 櫻田武嗣, 杉浦一徳, 町澤朗彦, 中川晋一: 沖縄 IT シンポジウムにおける沖縄-幕張間 DV 会議シス テム遅延測定, 電子情報通信学会技術研究報告 IN, 情報 ネットワーク, Vol.101, No.413, pp.21-25 (Nov. 2001).
- [18] 徳差雄太,松谷健史,空閑洋平,村井 純:低遅延により自然な遠隔コミュニケーションを実現する映像配信システムの提案,マルチメディア,分散,協調とモバイル (DICOMO2013)シンポジウム論文集,pp.911-917 (July 2013).
- [19] 油谷 曉,垣内正年,藤川和利,猪俣敦夫,香取啓志, 眞鍋佳嗣,千原國宏:非圧縮 4K 超高精細映像のための インターネット伝送実験:電子情報通信学会技術研究報 告 IA,インターネットアーキテクチャ,Vol.109, No.208, pp.55-58 (Sep. 2009).



# 空閑 洋平

2009 年慶應義塾大学政策・メディア 研究科修了.2015年同大学大学院博 士(政策・メディア).同年5月より現 職(慶應義塾大学大学院政策・メディ ア研究科特任助教).インターネット 計測技術の研究に従事.



## 中村 修

1983 年慶應義塾大学工学部卒業.工 学博士.1990 年から東京大学大型計 算機センター助手を経て1993 年慶應 義塾大学環境情報学部助手となり,現 在,慶應義塾大学環境情報学部教授. 1987 年から WIDE プロジェクトにて

インターネットの研究開発をに携わる.2003年からは AutoID Lab Japan 副所長となり,ネットワーク型 RFID をは じめ各種センサネットワークの研究開発にも携わり,2009 年からは,藤沢地域の WiMAX の運用会社,オープンワイ ヤレスプラットフォーム合同会社の技術協議会委員長とな り無線インフラを含めたインターネット関連の研究開発も 行う.2014年からは W3C/KEIO のサイトマネージャに 就任し,Web 関連の標準化活動も行う.ACM 会員,電気 情報通信学会会員,ISOC 会員.



# 徳差 雄太

2014 年慶應義塾大学環境情報学部卒 業.現在,同大学大学院理工学研究科 修士課程在籍中.



# 松谷健史 (学生会員)

2006 年慶應義塾大学環境情報学部卒 業.2008 年同大学大学院政策・メディ ア研究科修了.同年慶應義塾大学後期 博士課程入学.