I. エグゼクティブサマリー
現代のデータセンターは、ハイパフォーマンスコンピューティング(HPC)、人工知能/機械学習(AI/ML)、ビッグデータ分析といった要求の厳しいワークロードをサポートしなければなりません。これらのアプリケーションは、超低遅延、高帯域幅、そして最小限のCPU使用率を必要とします。TCP/IPのような従来のネットワーキングプロトコルは、その高いオーバーヘッドと遅延のため、これらのニーズを満たすことができません。
リモートダイレクトメモリアクセス(RDMA)は、高性能な相互接続を可能にする重要な技術です。RDMAは、ネットワーク化されたコンピューターが、オペレーティングシステムやCPUを介さずに、メモリ間で直接データ転送(メモリからメモリへ)することを可能にします。このプロセスにより、遅延とCPU負荷が劇的に削減されます。
- InfiniBandは、最高のパフォーマンスとネイティブなロスレス運用を実現するために専用設計された、プロプライエタリなファブリックです。
- RoCE v2(RDMA over Converged Ethernet)は、RDMAの利点を標準的なイーサネット上で適用し、ルーティング可能でよりコスト効率の高い選択肢を提供しますが、ロスレスを実現するためには特定の構成が必要です。
- iWARPは、TCPをベースとしたもう一つのRDMA over Ethernetソリューションですが、一般的にはRoCE v2よりも普及しておらず、パフォーマンスも劣ります。
適切な相互接続技術の選択は、パフォーマンスのニーズ、予算、既存のインフラ、スケーラビリティの目標に依存する戦略的な決定です。このレポートでは、これらの技術を分析し、標準的なイーサネット/TCP/IPと比較し、さらにCXLやNVLinkといった新しい代替技術を探求することで、この重要な意思決定を支援します。
II. 高性能ネットワーキングとRDMA入門
現代のデジタル世界では、ハイパフォーマンスコンピューティング(HPC)、人工知能/機械学習(AI/ML)、ビッグデータ分析といったデータ集約型のアプリケーションが急激に増加しています。これらのワークロードは、計算ノードとストレージの間で大量のデータセットを迅速かつ効率的に移動させる必要があります。例えば、AIアプリケーションはデータの完全性に非常に敏感であり、たった一つのメッセージ損失がトレーニング全体を台無しにする可能性があるため、ロスレスネットワークを必要とします。また、これらのアプリケーションがデータを効率的に処理するためには、高帯域幅のトラフィックも不可欠です。
高性能アプリケーションにおける従来のTCP/IPイーサネットの限界
一般的なネットワーク用途では信頼性が高いものの、従来のTCP/IPイーサネットには、高性能アプリケーションにおいて大きな限界があります。
- 高い遅延とCPUオーバーヘッド:TCP/IPの設計では、データはオペレーティングシステムのカーネル内にある複数のソフトウェア層を経由するため、CPUのかなりの関与が必要です。このプロセスはかなりの遅延(通常は数十マイクロ秒)を加え、CPUに重い負荷をかけます。遅延に敏感なアプリケーションにとって、これは大きなボトルネックとなります。CPUがアプリケーションの実行ではなく、ネットワークトラフィックの管理に時間を費やすことになるからです。コンテキストスイッチやデータコピーから生じるこの「CPU税」は、ネットワーク処理をオフロードしてCPUをアプリケーションタスクのために解放するRDMA技術を採用する主な理由です。
- スループットの制約:送信ウィンドウサイズ、セグメントサイズ、パケットロスなど、いくつかの要因がTCPの実効スループットを制限します。標準的なTCPのウィンドウサイズ(多くの場合65,535バイトに制限される)は、特に遅延の大きいネットワークにおいて、高帯域幅リンクの完全な利用を妨げることがあります。さらに、TCPの中核的な信頼性メカニズムであるパケットの再送は、遅延を引き起こし、余分な帯域幅を消費するため、混雑したネットワークや損失の多いネットワークではパフォーマンスを損ないます。
- スケーラビリティの課題:TCP/IPは大規模なネットワークでうまくスケールしますが、その設計は生のパフォーマンスよりも一般的な信頼性を優先しています。このため、大規模なHPCクラスターやリアルタイムのAI推論など、極端なスループットと最小限の遅延を要求するシナリオでは、あまり効果的ではありません。
リモートダイレクトメモリアクセス(RDMA)の基本とその主な利点
リモートダイレクトメモリアクセス(RDMA)は、高性能な環境におけるTCP/IPの限界を克服するために開発されました。その主な利点は、データ転送中にCPUとオペレーティングシステムをバイパスすることから得られます。
- ダイレクトメモリアクセス(ゼロコピー):RDMAは、どちらのシステムのCPUやOSも介さずに、あるコンピューターのメモリから別のコンピューターのメモリへ直接データを転送します。この「ゼロコピー」アプローチは、中間データバッファやコンテキストスイッチを排除し、これらは従来のネットワーキングにおけるオーバーヘッドの主な原因でした。
- 遅延とCPU負荷の削減:CPUとOSをバイパスすることで、RDMAは通信遅延を劇的に削減し、CPUサイクルを解放します。これは、より高速な計算とより良いリアルタイムデータ処理に直接つながります。例えば、アプリケーションの遅延は、TCP/IPでは約50マイクロ秒だったものが、RDMAでは2~5マイクロ秒まで低下します。
- 帯域幅利用率の向上:効率的なデータパスと削減されたオーバーヘッドにより、RDMAはアプリケーションが利用可能なネットワーク帯域幅をより有効に活用することを可能にし、より高い実効スループットをもたらします。
- 主要な実装:今日使用されている主なRDMA技術は、InfiniBand、RoCE(バージョン1および2)、そしてiWARPです。
III. RoCE v2: RDMA over Converged Ethernet
RoCE v2は、RDMAの利点を広く普及しているイーサネットエコシステムに拡張する、高性能ネットワーキングにおける大きな一歩です。
A. アーキテクチャの原則
- RoCE v1からの進化:RoCE v1はレイヤー2プロトコル(イーサタイプ0x8915)であったため、単一のイーサネットブロードキャストドメインに限定され、スケーラビリティが制限されていました。RoCE v2は、インターネットレイヤーで動作することでこの問題を解決します。RDMAトラフィックをUDP/IPパケット内にカプセル化(UDP宛先ポート4791を使用)し、レイヤー3のIPネットワークを越えてルーティング可能にします。このルーティング可能性は重要な改善であり、RoCE v2が大規模なデータセンターやクラウド環境で使用されることを可能にしました。
- RDMA over Ethernetの統合:RoCEは、標準的なイーサネットネットワーク上でRDMAを実行する方法を提供します。InfiniBandのネットワーク層をIPおよびUDPヘッダーで効果的に置き換えつつ、中心となるInfiniBandのトランスポート層とRDMAプロトコルを維持します。この設計により、RoCEは既存のイーサネットインフラを活用できます。
- パケットフォーマット:RoCE v2パケットには、IPヘッダーとUDPヘッダーが含まれており、これらがRDMAトランスポートプロトコルをカプセル化します。UDPはパケットの順序を保証しませんが、RoCE v2の標準では、同じ送信元ポートと宛先アドレスを持つパケットは並べ替えられてはならないと定められています。
- 「両方の長所を兼ね備えた」妥協点:RoCE v2の設計は、RDMAの高性能を、柔軟でコスト効率が高く、どこにでも存在するイーサネットプラットフォーム上で提供することを目指す戦略的な妥協点です。このアプローチは幅広い互換性を提供しますが、重要な課題も生み出します。それは、本質的に損失が発生しやすいイーサネットネットワーク上で、RDMAが必要とするロスレスなパフォーマンスを確保することです。
B. パフォーマンスプロファイル
- 遅延:RoCEホストチャネルアダプター(HCA)は、1.3マイクロ秒という非常に低い遅延を達成できます。アプリケーションレベルでは、RoCEは遅延を約5マイクロ秒に削減し、これはTCP/IPで一般的な50マイクロ秒と比較して大きな改善です。InfiniBandはネイティブではわずかに低い遅延を提供しますが、RoCEのパフォーマンスはリアルタイムアプリケーションにとって非常に優れています。
- 帯域幅:RoCE v2は高帯域幅をサポートし、ポートあたり最大400 Gbpsの速度に対応しています。
- CPUオフロード:他のRDMAプロトコルと同様に、RoCEはデータ転送のためにCPUをバイパスします。このオフロードにより、貴重なCPUリソースがネットワーク処理ではなく、計算集約型のタスクに解放されます。
- ロスレスパフォーマンス:InfiniBandのパフォーマンスに匹敵するためには、RoCEはロスレスなイーサネットネットワークに依存します。これは通常、データセンターブリッジング(DCB)機能、特に優先度ベースフロー制御(PFC)と明示的輻輳通知(ECN)を実装することで実現されます。
C. インフラと管理
- ハードウェア/ソフトウェア要件:RoCEはスイッチやケーブルなどの標準的なイーサネットハードウェアで動作するため、組織は既存のインフラを活用できます。ただし、エンドポイントにはRoCE対応のホストチャネルアダプター(HCA)が必要です。ソフトウェアサポートは成熟しており、Mellanox OFED 2.3+で実装され、Linuxカーネルv4.5+に統合されています。
- ロスレスネットワーク構成:RoCEは標準的なイーサネットを使用しますが、ロスレスなDCBネットワークを構築することは、InfiniBandネットワークのセットアップよりも複雑になる可能性があります。エンドポイントからスイッチまで、すべてのコンポーネントを慎重に設定する必要があります。これには、優先度ベースフロー制御(PFC)、拡張伝送選択(ETS)、および輻輳通知メカニズムの設定が含まれます。レイヤー3ネットワークを越えて動作させるには、これらのロスレス特性をルーター間で維持する必要があり、多くの場合、レイヤー2の優先度設定をレイヤー3のDSCP QoS設定にマッピングすることで行われます。
- 管理上の考慮事項:RoCEは標準的なイーサネットツールで管理できます。しかし、大規模なRoCE v2展開において一貫したロスレスパフォーマンスを確保し、輻輳を管理することは困難であり、専門的な知識が必要です。
- 「コスト効率」の隠れたコスト:RoCEは既存のイーサネットインフラを利用できるため、「コスト効率が高い」としばしば言われますが、これは単純化しすぎています。InfiniBandのようなパフォーマンスを達成するには、完全に設定されたロスレスイーサネットネットワークが必要です。データセンターブリッジング(DCB)機能(PFCやECNなど)を設定する複雑さは、InfiniBandネットワークを構成するよりもはるかに高くなる可能性があります。この複雑さは、ネットワーク設計、トラブルシューティング、および管理のための運用コストを増大させ、より高価なイーサネットスイッチを必要とするかもしれません。結果として、RoCEによる初期のハードウェア節約分は、これらの高い運用コストによって相殺される可能性があります。正確な比較のためには、総所有コスト(TCO)の徹底的な分析が不可欠です。
D. 主なアプリケーション
RoCE v2は、多くのデータセンターやエンタープライズアプリケーションにとって優れたソリューションです。特に、AIワークロード、高頻度取引、リアルタイム分析など、超低遅延と高スループットを必要とする環境に適しています。また、データベースやファイルI/Oに大きく依存するアプリケーションのパフォーマンスも向上させます。さらに、RoCE v2は高速で効率的なデータレプリケーションを可能にすることで、事業継続と災害復旧を支援します。AIトレーニングクラスターでの広範な使用は、現代のコンピューティングにおけるその重要性を浮き彫りにしています。
IV. InfiniBand:特化型高性能ファブリック
InfiniBandは、要求の厳しいコンピューティング環境向けに、比類のない速度、最小限の遅延、高い信頼性を提供するためにゼロから設計された、最高級の高性能相互接続技術です。
A. アーキテクチャの原則
- ネイティブRDMA:InfiniBandは、物理層からプロトコルスタック全体にRDMAが統合されるように構築されました。このゼロからの設計により、RDMA操作が非常に効率的になり、CPUの介在なしにノード間に直接的で保護されたデータチャネルが作成されます。
- スイッチドファブリックトポロジー:InfiniBandは、デバイス間の直接的なポイントツーポイント接続のためにスイッチドファブリックトポロジーを使用します。このアーキテクチャには、プロセッサ上のホストチャネルアダプター(HCA)と周辺機器上のターゲットチャネルアダプター(TCA)が含まれ、効率的な通信を可能にします。
- クレジットベースのフロー制御:InfiniBandの中核的な特徴は、クレジットベースのフロー制御です。このハードウェアレベルのアルゴリズムは、送信者がデータを送信する前に受信側がそれを受け入れるのに十分なバッファスペース(クレジット)を持っていることを確認することで、ロスレス通信を保証します。このネイティブな信頼性によりパケットロスが防止され、ロスレスを実現するために上位層での設定が必要な技術とは一線を画しています。
- プロプライエタリな標準:InfiniBandは、1999年に設立されたInfiniBand Trade Association(IBTA)によって定義されたプロプライエタリな標準に従っています。このエコシステムは、InfiniBandアダプターとスイッチの主要メーカーであるNVIDIA(Mellanoxの買収を通じて)によって大きく支配されています。
B. パフォーマンスプロファイル
- 超低遅延:InfiniBandは一貫して最も低い遅延を提供します。アダプターの遅延は0.5マイクロ秒と低く、スイッチのポート間遅延は約100ナノ秒です。これは同等のイーサネットスイッチの230ナノ秒よりも大幅に低いです。アプリケーション層では、InfiniBandはTCP/IPの50マイクロ秒と比較して、2マイクロ秒という低い遅延を達成できます。
- 高スループット能力:InfiniBandは非常に高いデータレートをサポートします。HDRやNDRといった最新のバージョンでは、レーンあたり最大200 Gbpsおよび400 Gbpsを提供します。集約されたリンクはさらに高いスループットを達成でき、800 Gbps(NDR)、さらには1.6 Tbps(XDR)に達します。
- CPU効率:InfiniBandの重要な強みは、ほぼゼロのCPU使用率で超低遅延と非常に高い帯域幅を提供できることです。このネットワーク処理のオフロードは、計算集約型のワークロードにとって重要な利点です。
- 設計によるパフォーマンス vs. 設定によるパフォーマンス:InfiniBandとRoCEのアプローチには根本的な違いがあります。InfiniBandはRDMAのためにゼロから設計されており、その物理層とトランスポート層は、ロスレス通信のためのネイティブなクレジットベースアルゴリズムを含む、ハードウェアレベルの信頼性のために設計されています。対照的に、RoCEは標準イーサネット上で動作し、ロスレスネットワークを作成するために優先度ベースフロー制御(PFC)や明示的輻輳通知(ECN)などの機能の設定に依存します。これは、InfiniBandが箱から出してすぐに保証された高性能を提供するのに対し、RoCEのパフォーマンスは基礎となるイーサネット設定の品質に依存することを意味します。
C. インフラと管理
- 専用ハードウェア:InfiniBandには、専用のホストチャネルアダプター(HCA)、スイッチ、ルーター、プロプライエタリなケーブルなど、専門のハードウェアが必要です。これは通常、イーサネットベースのソリューションと比較して初期投資が高くなります。
- 集中管理:InfiniBandネットワークは、中央のサブネットマネージャー(SM)によって管理されます。SMは、転送テーブルを計算して配布し、パーティションやQuality of Service(QoS)などの設定を管理します。この集中型アプローチは、初期設定後の大規模クラスターでの管理を簡素化できます。
- 専門知識:InfiniBandネットワークの展開と保守には、通常、専門的な知識が必要であり、これが運用コストを増加させ、ITスタッフの学習曲線を急にする可能性があります。
- エコシステム:InfiniBandエコシステムは成熟していますが、NVIDIA/Mellanoxに支配されています。
D. 主なアプリケーション
InfiniBandは、ハイパフォーマンスコンピューティング(HPC)環境の業界標準であり、これらのアプリケーションで最も急速に成長している相互接続技術です。IBTAが推奨する主要な技術です。その超低遅延と高帯域幅は、大規模なAI/MLモデルのトレーニング、ビッグデータ分析、大規模なデータベース操作といった要求の厳しいワークロードに不可欠です。また、大規模なシミュレーション(例:天気予報)や、速度とデータの完全性が重要な高頻度金融サービスにも不可欠です。2022年6月時点で、世界のTop100スーパーコンピューターの62%がInfiniBandを使用していました。
V. iWARP:標準TCP/IP上でのRDMA
iWARP(Internet Wide Area RDMA Protocol)は、RDMAを実装するもう一つの方法であり、標準的なTCP/IPプロトコルスイートを使用することで知られています。
A. アーキテクチャの原則
- TCP/IP上のRDMA:iWARPは、標準的なIPネットワーク上でRDMAを実装するプロトコルです。UDPを使用するRoCEとは異なり、iWARPはTCPやSCTPのような信頼性の高いトランスポートプロトコルの上に構築されています。
- 主要コンポーネント:iWARPの動作は、いくつかのコンポーネントに依存しています。Direct Data Placement Protocol(DDP)は、データをアプリケーションのメモリに直接配置することでゼロコピー転送を可能にします。Remote Direct Memory Access Protocol(RDMAP)は、RDMAの読み取りおよび書き込み操作のためのサービスを提供します。TCP上でDDPを有効にするためには、Marker PDU Aligned(MPA)フレーミングという特定の適応層が必要です。
- 信頼性:iWARPのユニークな特徴は、その信頼性が基礎となるTCPプロトコルによって提供されることです。これは、UDPを使用し、信頼性のためにデータセンターブリッジング(DCB)のような外部メカニズムを必要とするRoCE v2とは異なります。その結果、iWARPは信頼性のある接続型通信のみをサポートします。
B. パフォーマンスプロファイル
- 比較的な遅延とスループット:iWARPは従来のTCP/IPよりも遅延が低いものの、そのパフォーマンスは一般的にRoCEよりも劣ります。2011年には、最も低いiWARP HCAの遅延は3マイクロ秒でしたが、RoCE HCAは1.3マイクロ秒に達しました。ベンチマークでは、RoCEがiWARPよりもはるかに高速にメッセージを配信し、40GbEでは2倍以上、10GbEでは5倍以上のスループットを達成することが一貫して示されています。
- CPUオフロード:他のRDMAプロトコルと同様に、iWARPは直接メモリ転送を可能にすることでCPU負荷を最小限に抑えます。RDMAハードウェアを備えたTCPオフロードエンジン(TOE)を使用してゼロコピーの結果を達成し、CPUの関与をさらに減らすことができます。
C. インフラと管理
- 標準イーサネットとの互換性:iWARPの大きな利点は、既存のネットワークに最小限の変更で、標準的なイーサネットインフラ上で実行できることです。これにより、組織は現在の投資を活用できます。
- ハードウェア要件:標準的なイーサネットスイッチとの互換性にもかかわらず、iWARPは依然としてエンドポイントにiWARP対応のネットワークカードを必要とします。
- 統合の側面:iWARPは、Microsoft Windows Serverや最新のLinuxカーネルなどの主要なオペレーティングシステムに統合されています。これにより、SMB Direct、iSCSI Extensions for RDMA(iSER)、Network File System over RDMA(NFS over RDMA)などのアプリケーションがサポートされます。
- 管理の課題:iWARPトラフィックの管理は難しい場合があります。TCPのポートスペースを共有するため、フロー管理が複雑になり、RDMAトラフィックを特定することが困難になります。全体として、iWARPはRoCEよりも管理が難しいと考えられています。
D. 市場での妥当性
- 限定的な採用:iWARPは、InfiniBandやRoCE v2と比較して、「一般的でない」または「あまり使用されない」RDMA実装です。そのソリューションは、実装と展開の課題により、「限定的な成功」しか収めていません。
- TCP依存のパラドックス:RDMAをTCP上に階層化するというiWARPの設計選択は、組み込みの信頼性と互換性を提供しますが、逆説的に、RDMAの中核的な利点を完全に達成することを妨げています。ハードウェアオフロードがあっても、TCPプロトコル固有のオーバーヘッドが、iWARPがInfiniBandやRoCEの超低遅延と高スループットに到達するのを妨げているようです。このパフォーマンストレードオフが、市場での限定的な採用につながっています。
VI. 比較分析:RoCE v2 vs. InfiniBand vs. iWARP vs. 標準イーサネット
パフォーマンス、インフラ、運用指標の詳細な比較は、適切な高性能相互接続技術を選択する上で重要です。
A. パフォーマンスベンチマーク
これらの相互接続技術のパフォーマンスは、特に遅延、帯域幅、CPU使用率において大きく異なります。
- 遅延:
- InfiniBand:最も低い遅延を提供します。スイッチのポート間遅延は約100ナノ秒、アダプターの遅延は0.5~1.3マイクロ秒と低いです。アプリケーション層の遅延は2マイクロ秒まで低くなることがあります。
- RoCE v2:超低遅延を提供します。イーサネットスイッチの遅延は約230ナノ秒、HCAの遅延は1.3マイクロ秒と低いです。アプリケーション層の遅延は通常約5マイクロ秒です。
- iWARP:RoCEよりも遅延が大きく、HCAの遅延は約3マイクロ秒と報告されています(2011年データ)。一貫してRoCEよりパフォーマンスが劣ります。
- 標準TCP/IP:最も遅延が大きく、片道遅延は10~55ミリ秒です。アプリケーション層の遅延は通常約50マイクロ秒です。
- 帯域幅:
- InfiniBand:非常に高い帯域幅をサポートします。NDRのような最新バージョンはポートあたり最大400 Gbpsを提供し、XDRは最大800 Gbpsに達します。将来のGDRは1.6 Tbpsに達すると予測されています。
- RoCE v2:高帯域幅が可能で、ポートあたり最大400 Gbpsをサポートします。
- iWARP:一般的にRoCEよりもスループットが低いです。
- 標準TCP/IP:プロトコルのオーバーヘッドと再送によりスループットがしばしば制限され、高帯域幅リンクを効率的に使用することが困難です。
- CPUオフロード:
- InfiniBand、RoCE v2、iWARP:これら3つのRDMA技術はすべて、オペレーティングシステムをバイパスすることでCPUの作業を大幅にオフロードし、他のタスクのためにCPUリソースを解放します。
- 標準TCP/IP:カーネルがデータ処理に深く関与するため、高いCPU負荷が発生します。
- ロスレスメカニズム:
- InfiniBand:ネイティブなハードウェアレベルのクレジットベースフロー制御を備えており、ロスレス通信を保証します。
- RoCE v2:ロスレスイーサネット構成に依存し、データセンターブリッジング(DCB)機能(PFCやECNなど)を使用します。また、ハードウェア再送によるエンドツーエンドの信頼性のある配信メカニズムも備えています。
- iWARP:TCPに組み込まれた信頼性のあるトランスポートを使用してデータの完全性を確保します。
- 標準TCP/IP:ベストエフォート型の配信モデルを使用し、信頼性を確保するために上位層での再送に依存しますが、これが遅延を追加します。
次の表は、パフォーマンス特性をまとめたものです。
| 機能 | InfiniBand | RoCE v2 | iWARP | 標準イーサネット/TCP/IP |
|---|---|---|---|---|
| コア技術 | ネイティブRDMA | RDMA over Ethernet (UDP/IP) | RDMA over Ethernet (TCP/IP) | 従来の階層型プロトコル |
| 標準的なアプリケーション遅延 (µs) | 2 | 5 | >3 (2011 HCA) | 50 |
| スイッチのポート間遅延 (ns) | 100 | 230 | N/A (イーサネットに依存) | 通常はより高く、可変 |
| 最大帯域幅 (Gbps/ポート・リンク) | 400 (NDR), 800 (XDR), 1.6T (GDR) | 400 | 一般的にRoCEより低い | 400+ (プロトコルオーバーヘッドにより制限) |
| CPUオーバーヘッド | ほぼゼロ | 非常に低い | 低い | 高い |
| ロスレスメカニズム | ネイティブなクレジットベースフロー制御 | ロスレスイーサネットが必要 (PFC, ECN) | TCPの信頼性のあるトランスポート | ベストエフォート、再送に依存 |
| ルーティング可能性 (L2/L3) | L3 (サブネットマネージャー経由) | L3 (Routable RoCE) | L3 | L3 (標準IPルーティング) |
B. インフラとエコシステム
- ハードウェア依存性:
- InfiniBand:InfiniBand HCA、スイッチ、プロプライエタリなケーブルを含む、一式の専門ハードウェアが必要です。
- RoCE v2:RoCE対応のHCAが必要ですが、標準的なイーサネットスイッチやケーブル上で動作するため、既存のネットワークとの統合が可能です。
- iWARP:iWARP対応のネットワークカードが必要ですが、標準的なイーサネットスイッチを使用できます。
- 標準イーサネット:広く利用可能なコモディティのイーサネットNICとスイッチを使用します。
- ベンダーロックイン:
- InfiniBand:エコシステムは限定的で、Mellanox(NVIDIA)に支配されているため、ベンダーロックインの懸念が生じる可能性があります。
- RoCE v2:複数のベンダーが存在する大規模で競争の激しいイーサネットエコシステムの恩恵を受けます。一部のベンダーは、RoCEとiWARPの両方をサポートする「ユニバーサルRDMA」NICを提供しており、ロックインを軽減します。
- iWARP:IntelやChelsioなどのベンダーからのサポートがあり、広範なイーサネットエコシステムの恩恵も受けます。
- 相互運用性:
- InfiniBand:プロプライエタリな標準であるため、すべてのコンポーネントがIBTA仕様に準拠して、互いに動作することを保証する必要があります。
- RoCE v2:標準イーサネットを基盤としているため、より広範な相互運用性と既存ネットワークとの容易な統合が可能です。
- iWARP:標準的なIETF RFC(TCP/IP用)に基づいており、標準IPネットワーク内での高い互換性を保証します。
C. コスト効率
- 初期投資:
- InfiniBand:専門のハードウェアとライセンスのため、通常、より高い初期投資が必要です。大規模なAIクラスターでは、InfiniBandスイッチはRoCEスイッチよりも大幅に高価になる可能性があります。
- RoCE v2:既存のイーサネットと統合できるため、新規ハードウェアコストを削減でき、しばしばよりコスト効率の高い選択肢となります。大規模AIクラスターでのスイッチの節約額は、InfiniBandと比較して49%から70%と大幅になることがあります。
- iWARP:標準的なイーサネットスイッチを使用しますが、専門のアダプターが必要であり、これが依然として顕著なコストになる可能性があります。
- 標準イーサネット:コモディティハードウェアのため、一般的に最も低コストな選択肢です。
- 総所有コスト(TCO):
- InfiniBand:専門のハードウェア、メンテナンス、およびプロプライエタリ技術に関するスタッフのトレーニングの必要性から、TCOが高くなる傾向があります。
- RoCE v2:TCOが低くなる可能性がありますが、これは条件付きです。ロスレスイーサネットファブリックの設定と維持の複雑さが、運用コストを大幅に増加させる可能性があります。初期ハードウェアコストは低いかもしれませんが、設計、トラブルシューティング、保守に必要な専門知識と労力がこれらの節約分を相殺する可能性があります。したがって、「コスト効率」は、ハードウェア価格と組織の専門知識および管理負担の両方に依存します。
- iWARP:統合と管理の課題が、全体的なTCOに影響を与える可能性があります。
次の表は、インフラとコストに関する考慮事項の比較概要です。
| 機能 | InfiniBand | RoCE v2 | iWARP | 標準イーサネット/TCP/IP |
|---|---|---|---|---|
| 必要なネットワークハードウェア | 専用IB NIC, IBスイッチ, IBケーブル | RoCE対応NIC, 標準イーサネットスイッチ/ケーブル | iWARP対応NIC, 標準イーサネットスイッチ/ケーブル | 標準イーサネットNIC, イーサネットスイッチ/ケーブル |
| ネットワーク互換性 | プロプライエタリ (IBTA標準) | 標準イーサネット (IEEE) | 標準イーサネット (IETF RFC) | 標準イーサネット (IEEE) |
| 管理の複雑さ | 困難 (専門のSM) | 困難 (ロスレスイーサネット設定) | RoCEより困難 | 容易 |
| 初期ハードウェアコスト (相対) | 高い | 中程度 (既存資産を活用) | 中程度 (専門NIC) | 低い |
| 総所有コスト (相対) | 高い | 低い (管理次第) | 可変 (統合の課題あり) | 最も低い |
| ベンダーエコシステム | 限定的 (NVIDIA/Mellanoxが支配的) | 広範 (複数のイーサネットベンダー) | 広範 (複数のイーサネットベンダー) | 非常に広範 |
D. スケーラビリティと柔軟性
- ルーティング能力:
- InfiniBand:サブネットマネージャー(SM)によって中央管理されるルーティングを備えたスイッチドファブリックを使用します。非常にスケーラブルであり、10万ノード以上のクラスターをサポートします。
- RoCE v2:UDP/IPカプセル化により、レイヤー3のIPネットワーク上でルーティングが可能であり、大規模ネットワークやクラウド環境でスケーラブルです。また、効率的な負荷分散のためにECMPもサポートします。
- iWARP:IPネットワーク上でルーティング可能です。
- 標準イーサネット:非常にスケーラブルで柔軟ですが、HPCレベルの効率を得るためにはスパイン・リーフアーキテクチャのような高度な構成が必要になる場合があります。
- ネットワークトポロジー:
- InfiniBand:HPC/AIクラスターに最適化されており、Fat Tree、Dragonfly+、多次元Torusなどの高性能トポロジーをサポートします。
- RoCE v2:IPベースのルーティングにより、ほぼすべてのネットワークトポロジーに適応可能です。
- 標準イーサネット:スター型やメッシュ型を含む、幅広いトポロジーをサポートします。
E. 信頼性と輻輳制御
- 信頼性:
- InfiniBand:クレジットベースのフロー制御により、ネイティブなハードウェアレベルの信頼性を提供し、ロスレス通信を保証します。
- RoCE v2:PFCとETSを使用したロスレスイーサネット構成に依存します。また、ハードウェアベースのパケット再送によるエンドツーエンドの信頼性のある配信メカニズムも含まれています。
- iWARP:エラー訂正と再送を提供するTCP固有の信頼性から恩恵を受けます。
- 標準TCP/IP:再送による信頼性に重点を置いていますが、これがかなりの遅延を加え、スループットを低下させる可能性があります。
- 輻輳制御:
- InfiniBand:FECN/BECNマーキングに基づく独自の輻輳制御メカニズムを定義しています。
- RoCE v2:IP ECNビットと輻輳通知パケット(CNP)を使用した輻輳制御プロトコルを実装しています。DCQCNのような業界の慣行も使用されます。
- iWARP:TCPの確立された輻輳制御アルゴリズムに依存します。
F. アプリケーション適合性
- InfiniBand:最高のデータスループットと最低の遅延を必要とする環境に最適な選択肢です。これには、科学研究、金融モデリング、大規模HPCクラスター、そして最も要求の厳しいAI/MLトレーニングワークロードが含まれます。
- RoCE v2:既存のイーサネットインフラを活用しつつ、高性能を必要とする企業に好まれています。ストレージネットワーク、リアルタイム分析、クラウドサービスに適しており、パフォーマンスとコストのバランスを提供します。
- iWARP:既存のTCP/IPインフラの使用が必須要件であり、超低遅延が最優先事項ではない特定のニッチなアプリケーションで検討されることがあります。NVMeoF、iSER、SMB Direct、NFS over RDMAのようなアプリケーションや、テスト環境向けの低コストオプションとして適しています。
- 標準イーサネット/TCP/IP:極端なHPC/AIパフォーマンスが主な目標ではない環境での汎用ネットワーキング、例えば企業のLANやクラウドインフラにおいて、依然として最良の選択肢です。
- パフォーマンス・コスト・複雑性のトリレンマ:この分析は、相互接続技術を選択する際に、パフォーマンス、コスト、複雑性の間の根本的なトレードオフ、つまりトリレンマが存在することを明らかにしています。InfiniBandは最高のパフォーマンスとネイティブな信頼性を提供しますが、コストは高くなります。RoCE v2はイーサネット上でInfiniBandに近いパフォーマンスを提供し、ハードウェアコストを削減できる可能性がありますが、設定の複雑さが大幅に増します。iWARPはTCP上でRDMAを提供しますが、パフォーマンスは低くなります。標準イーサネットはコスト効率が高いですが、要求の厳しいワークロードに対応するパフォーマンスに欠けます。「最良」のソリューションは一つではなく、正しい選択は、特定のニーズと能力に基づいてこれら3つの要素をバランスさせる必要があります。
次の表は、各技術のアプリケーション適合性の概要です。
| 技術 | 主なユースケース | 最適な用途 | 不向きな用途 |
|---|---|---|---|
| InfiniBand | HPC, AI/MLトレーニング, ビッグデータ分析, 金融サービス(裁定取引) | 絶対的な最低遅延、最高帯域幅、ネイティブなロスレス保証を要求する環境 | コストに敏感な一般企業ネットワーク、専門IT知識のない環境 |
| RoCE v2 | データセンター, クラウドサービス, ストレージネットワーク, リアルタイム分析, AI/ML推論 | 既存のイーサネットインフラを活用して高性能を実現したい組織。コストとパフォーマンスのバランス。 | 広範な設定知識なしにネイティブなロスレス保証が譲れない環境 |
| iWARP | NVMeoF, iSER, SMB Direct, NFS over RDMA, テスト/開発環境 | 既存のTCP/IP上でRDMAを必要とする特定のアプリケーションで、絶対的なピークパフォーマンスが重要でない場合 | 大規模HPC/AIクラスター, 遅延に敏感なリアルタイムアプリケーション |
| 標準イーサネット/TCP/IP | 一般的な企業ネットワーク, LAN, インターネット接続, クラウドインフラ | どこでも利用可能で、コスト効率が高く、柔軟な汎用ネットワーキング | ハイパフォーマンスコンピューティング, AI/MLトレーニング, その他遅延に敏感でCPU集約型のワークロード |
VII. 新興の高性能相互接続技術と将来のトレンド
高性能ネットワーキングの状況は、データ集約型ワークロードと効率向上の必要性によって常に変化しています。確立されたRDMA技術を超えて、新しい相互接続技術とトレンドがデータセンターの未来を形作っています。
A. Compute Express Link (CXL)
CXLは、PCIe物理層上に構築された最新の相互接続技術で、汎用コンピューティングシステム向けに設計されています。その主な目標は、CPUとGPUやFPGAのようなアクセラレーター間の高速でシームレスな通信を可能にすることです。
CXLの主な特徴には、高速データ転送、幅広い互換性、そしてキャッシュコヒーレンシによる効率的なメモリ共有が含まれます。3種類のデバイスタイプ(アクセラレーター用、キャッシュコヒーレントデバイス用、メモリエクスパンダー用)と柔軟なトポロジーをサポートします。CXL/PCIe Gen5は、ピークスループット512 Gbps、遅延約500ナノ秒を提供します。InfiniBandの遅延(約100ナノ秒)の方が低いですが、CXLはキャッシュコヒーレンシが重要な低遅延メモリアクセスにおいて優れています。
2022年のGen-ZコンソーシアムとCXLコンソーシアムの合併は大きな進展であり、これによりCXLはこの種のメモリ中心の相互接続技術における唯一の業界標準として位置づけられました。
CXLは、従来のノード間ネットワーキング(RoCEやInfiniBandなど)から、メモリコヒーレンシとリソースの分離へと移行する動きを表しています。これは、特定のワークロードにおいて、CXLが主要な相互接続技術となり、従来のネットワークファブリックを補完したり、その必要性を減らしたりする可能性があることを意味します。
B. NVLink
NVLinkは、NVIDIA独自の高帯域幅、低遅延の相互接続技術で、同社の高速コンピューティングプラットフォーム内でのGPU間およびGPU-CPU間の直接通信のために設計されています。
NVLinkは、GB200やGB300アーキテクチャなど、NVIDIAのAIおよびHPC向けソリューションの重要な部分です。GPU間の非常に高速なデータ転送を提供することで、AIモデルのトレーニングをスケーリングする上で不可欠です。
NVLinkは、垂直統合と特化したパフォーマンスへのトレンドを示しています。そのプロプライエタリな性質は、RoCEやInfiniBandのようなオープンスタンダードとは対照的です。この設計は、単一ベンダーのハードウェアスタック内でパフォーマンスを最大化します。InfiniBandやRoCEがノード間の一般的なネットワーキングを処理するのに対し、NVLinkはGPUシステム内および間の通信を最適化し、異なる技術が異なるニーズに応える階層化された相互接続アーキテクチャを構築します。
C. 将来のイーサネット速度
イーサネットは10 Mbpsから400 Gbpsへと進化し、その開発は800GbEおよび1.6TbE標準の登場で続いています。これらのより高速な速度は、量子コンピューティング、高度なAI、没入型技術などの次世代アプリケーションにとって不可欠となります。
イーサネット速度の継続的な向上は、RoCEに直接的な利益をもたらします。RoCEはイーサネット上に構築されているため、これらの進歩から自動的に恩恵を受け、InfiniBandとの競争力を維持するのに役立ちます。クラウドサービスの成長はすでに200GbEと400GbEの導入を推進しており、次に800GbEと1.6TbEが控えています。
イーサネットとRoCEの継続的な関連性は密接に結びついています。イーサネットの速度が進歩するにつれて、RoCEは高性能データセンターにとってさらに強力な競争相手となり、特に既存のイーサネット投資を活用し、プロプライエタリなエコシステムを避けたい組織にとっては魅力的です。
D. 分離型コンピューティングとフォトニクス
- 分離型コンピューティング:この新しいアプローチは、計算、ストレージ、メモリといったリソースを従来のサーバーから切り離すことで、データセンターの効率を向上させることを目指しています。これらのリソースは、その後、高度なネットワーキングによって接続された柔軟なプールに再構成されます。その結果、かつてはサーバー内で行われていた通信がネットワークを横断するようになり、負荷が劇的に増加し、超低遅延が不可欠になります。このトレンドは、RoCEやInfiniBandのような高性能相互接続技術の必要性を強め、CXLのような新しい技術の開発を推進します。
- データセンターネットワーキングにおけるフォトニクス:シリコンフォトニクスは、光学部品をシリコンチップ上に集積し、高速で低消費電力の光相互接続を可能にします。この技術は、従来の銅線よりもはるかに高速なデータ転送速度(100 Gbps以上)、低遅延、優れたエネルギー効率を提供します。データセンターの増大するトラフィック需要に対応し、次世代の高速イーサネットを可能にするために不可欠になりつつあります。
これらのトレンド間の関係は共生的です。分離型アーキテクチャは高度なネットワーキングを必要とし、それをRoCE、InfiniBand、CXLのような相互接続技術が提供します。そして、これらの相互接続技術に必要な速度、特に将来の800GbEおよび1.6TbE標準を達成するためには、シリコンフォトニクスのような技術に依存することになります。
VIII. 推奨事項と結論
高性能相互接続技術の選択は、組織の特定のニーズ、予算、インフラ、そして長期的なビジョンに合致しなければならない重要な戦略的決定です。
- 最高の生パフォーマンスとミッションクリティカルなHPC/AI向け:InfiniBandは明確なゴールドスタンダードです。そのネイティブRDMA、クレジットベースのフロー制御、専用設計は、保証されたロスレスパフォーマンスで最低の遅延と最高の スループットを提供します。予算と専門知識を持つ組織は、マイクロ秒単位が重要となる大規模クラスターにはInfiniBandを選択すべきです。
- コスト効率とイーサネット統合を伴う高性能向け:RoCE v2は強力で、ますます人気が高まっている代替案です。TCP/IPを大幅に上回るパフォーマンス向上を提供し、既存のイーサネットインフラを使用することでInfiniBandのパフォーマンスに近づくことができます。データセンターを完全な刷新なしにアップグレードしたい組織に最適です。ただし、この選択には、ロスレスイーサネットファブリックを慎重に設定・管理するというコミットメントが必要です。
- ニッチなアプリケーションまたはレガシーなRDMA over TCP環境向け:iWARPは、既存のTCP/IPインフラの使用が必須で、ピークパフォーマンスが最優先事項ではない特定のケースで適している場合があります。しかし、パフォーマンスの低さと管理の複雑さから、現代の高性能展開での使用は限定的です。
- 汎用ネットワーキング向け:標準イーサネット/TCP/IPは、極端なパフォーマンス要求がない環境において、依然として最も一般的でコスト効率の高い選択肢です。その使いやすさとコモディティハードウェアは、一般的な企業ネットワーク、LAN、標準的なクラウドインフラに最適です。
- 将来性を見据えた新興技術の検討:組織は、メモリ中心および分離型アーキテクチャ向けにCXLの開発を注視すべきです。CXLはリソースプーリングを最適化することで、従来のネットワークファブリックを補完します。同様に、NVLinkはNVIDIAのGPU中心システム内の通信を最適化するために不可欠です。これらの技術は、計算階層の異なる層に対する相互接続技術の多様化を示しています。さらに、800GbEおよび1.6TbEイーサネットの開発は、フォトニクスの進歩とともに、RoCEをさらに強力な選択肢にし続けるでしょう。
結論として、高性能ネットワーキングは複雑であり、AI、HPCの要求、そして分離型コンピューティングへの移行によって動かされています。InfiniBandが専門的な環境で絶対的なパフォーマンスをリードする一方で、RoCE v2はRDMAの利点とイーサネットの普遍性を結びつける、強力で柔軟な代替案を提供します。CXLとNVLinkの登場は、異なる通信層を最適化する相互接続技術の戦略的な多様化を示しています。最適なソリューションは、常にパフォーマンス要件、コスト、既存のインフラ、そして未来を見据えたビジョンの戦略的なバランスによって決まります。




