一、執行摘要
現代化資料中心必須支援高效能運算 (HPC)、人工智慧/機器學習 (AI/ML) 和大數據分析等嚴苛的工作負載。這些應用程式需要超低延遲、高頻寬和最低的 CPU 使用率。傳統的網路協定如 TCP/IP 因其高額外負擔和延遲,已無法滿足這些需求。
遠端直接記憶體存取 (RDMA) 是實現高效能互連的關鍵技術。RDMA 允許連網的電腦直接在其記憶體之間傳輸資料,無需作業系統或 CPU 的介入 (記憶體對記憶體),這個過程能大幅降低延遲和 CPU 負載。
- InfiniBand 是一種專為實現最高效能和原生無損操作而設計的專有網狀架構。
- RoCE v2 (基於融合乙太網路的 RDMA) 將 RDMA 的優勢應用於標準乙太網路,提供一種可路由且更具成本效益的選擇,但需要特定設定才能達到無損傳輸。
- iWARP 是另一種基於 TCP 的乙太網路 RDMA 解決方案,但通常較不普及,效能也低於 RoCE v2。
選擇正確的互連技術是一項策略性決策,取決於效能需求、預算、現有基礎設施和擴展目標。本報告將分析這些技術,將其與標準乙太網路/TCP/IP 進行比較,並探討 CXL 和 NVLink 等新興替代方案,以協助指引這項關鍵決策。
二、高效能網路與 RDMA 簡介
今日的數位世界,資料密集型應用程式如高效能運算 (HPC)、人工智慧/機器學習 (AI/ML) 和大數據分析正呈指數級成長。這些工作負載必須在運算節點和儲存設備之間快速有效地移動大量資料集。例如,AI 應用程式對資料完整性高度敏感,需要無損網路,因為一個遺失的訊息就可能毀掉整個訓練過程。高頻寬流量對這些應用程式高效處理資料也至關重要。
傳統 TCP/IP 乙太網路對高效能應用的限制
雖然傳統 TCP/IP 乙太網路在一般網路中相當可靠,但對於高效能應用卻有重大限制:
- 高延遲與 CPU 額外負載: TCP/IP 的設計會讓資料通過作業系統核心中的多個軟體層,需要大量的 CPU 介入。這個過程會增加可觀的延遲 (通常為數十微秒),並對 CPU 造成沉重負擔。對於延遲敏感的應用程式而言,這成為一大瓶頸,因為 CPU 將時間花在管理網路流量,而非執行應用程式。這種因情境切換和資料複製而產生的「CPU 稅」,是採用 RDMA 技術的主要原因,因為 RDMA 能卸載網路處理,釋放 CPU 資源以執行應用程式任務。
- 吞吐量限制: 有幾個因素限制了 TCP 的有效吞吐量,包括傳輸視窗大小、區段大小和封包遺失。標準的 TCP 視窗大小 (通常上限為 65,535 位元組) 可能會阻礙高頻寬鏈路的充分利用,尤其是在延遲較高的網路上。此外,TCP 的核心可靠性機制——封包重傳——會引入延遲並使用額外頻寬,從而損害壅塞或有損網路中的效能。
- 擴展性挑戰: 儘管 TCP/IP 在大型網路上擴展性良好,但其設計優先考慮的是通用可靠性而非原始效能。這使得它在需要極致吞吐量和最低延遲的場景中 (例如大規模 HPC 叢集或即時 AI 推理) 效果較差。
遠端直接記憶體存取 (RDMA) 的基礎及其核心優勢
遠端直接記憶體存取 (RDMA) 的開發是為了解決 TCP/IP 在高效能環境中的限制。其主要優勢來自於在資料傳輸過程中繞過 CPU 和作業系統:
- 直接記憶體存取 (零複製): RDMA 直接將資料從一台電腦的記憶體傳輸到另一台,無需任何一方系統的 CPU 或作業系統介入。這種「零複製」方法消除了中間資料緩衝區和情境切換,這些是傳統網路中額外負擔的主要來源。
- 降低延遲與 CPU 負載: 透過繞過 CPU 和作業系統,RDMA 大幅降低了通訊延遲並釋放了 CPU 週期。這直接帶來了更快的運算和更好的即時資料處理。例如,應用程式延遲可以從使用 TCP/IP 的約 50 微秒降至使用 RDMA 的 2-5 微秒。
- 更高的頻寬利用率: RDMA 高效的資料路徑和減少的額外負擔,使應用程式能夠更好地利用可用的網路頻寬,從而實現更高的有效吞吐量。
- 主要實作: 現今使用的主要 RDMA 技術包括 InfiniBand、RoCE (版本 1 和 2) 和 iWARP。
三、RoCE v2:基於融合乙太網路的 RDMA
RoCE v2 是高效能網路領域的一大進步,將 RDMA 的優勢擴展到廣泛使用的乙太網路生態系中。
A. 架構原則
- 從 RoCE v1 演進: RoCE v1 是一種第 2 層協定 (Ethertype 0x8915),使其受限於單一乙太網路廣播域,限制了其擴展性。RoCE v2 透過在網際網路層運作來解決此問題。它將 RDMA 流量封裝在 UDP/IP 封包內 (使用 UDP 目標埠 4791),使其可在第 3 層 IP 網路中路由。這種可路由性是一項關鍵改進,讓 RoCE v2 得以在大型資料中心和雲端環境中使用。
- 乙太網路上的 RDMA 整合: RoCE 提供了一種在標準乙太網路上執行 RDMA 的方法。它有效地用 IP 和 UDP 標頭取代了 InfiniBand 網路層,同時保留了核心的 InfiniBand 傳輸層和 RDMA 協定。這種設計讓 RoCE 能夠利用現有的乙太網路基礎設施。
- 封包格式: 一個 RoCE v2 封包包含一個 IP 標頭和一個 UDP 標頭,用以封裝 RDMA 傳輸協定。儘管 UDP 不保證封包順序,但 RoCE v2 標準要求具有相同來源埠和目標位址的封包不得被重新排序。
- 「兩全其美」的折衷方案: RoCE v2 的設計是一種策略性折衷,旨在於靈活、具成本效益且無處不在的乙太網路上提供 RDMA 的高效能。雖然這種方法提供了廣泛的相容性,但也帶來一個關鍵挑戰:在本身具有損耗性的乙太網路上,確保 RDMA 所需的無損效能。
B. 效能概況
- 延遲: RoCE 主機通道介面卡 (HCA) 可以實現極低的延遲,最低可達 1.3 微秒。在應用程式層面,RoCE 將延遲降至約 5 微秒,與 TCP/IP 常見的 50 微秒相比,是一項巨大的改進。儘管 InfiniBand 提供的原生延遲略低,但 RoCE 的效能對於即時應用程式來說非常出色。
- 頻寬: RoCE v2 支援高頻寬,每個埠的速度高達 400 Gbps。
- CPU 卸載: 與其他 RDMA 協定一樣,RoCE 在資料傳輸時繞過 CPU。這種卸載功能將寶貴的 CPU 資源從網路處理中釋放出來,用於運算密集型任務。
- 無損效能: 為達到與 InfiniBand 相當的效能,RoCE 依賴於無損的乙太網路。這通常透過實作資料中心橋接 (DCB) 功能來實現,特別是優先流量控制 (PFC) 和明確擁塞通知 (ECN)。
C. 基礎設施與管理
- 硬體/軟體需求: RoCE 可與標準乙太網路硬體 (如交換器和纜線) 搭配使用,使組織能夠利用其現有基礎設施。但是,它需要在端點安裝支援 RoCE 的主機通道介面卡 (HCA)。軟體支援已相當成熟,Mellanox OFED 2.3+ 中已有實作,並整合至 Linux Kernel v4.5+。
- 無損網路設定: 雖然 RoCE 使用標準乙太網路,但建立一個無損的 DCB 網路可能比設定 InfiniBand 網路更複雜。從端點到交換器的每個元件都必須仔細設定,包括設定優先流量控制 (PFC)、增強傳輸選擇 (ETS) 和擁塞通知機制。為了跨第 3 層網路運作,這些無損特性必須在路由器之間保持一致,通常是透過將第 2 層的優先級設定對應到第 3 層的 DSCP QoS 設定來實現。
- 管理考量: RoCE 可以用標準的乙太網路工具進行管理。然而,在大型 RoCE v2 部署中確保一致的無損效能和管理擁塞可能具有挑戰性,需要專業知識。
- 「成本效益」的隱藏成本: RoCE 常被稱為「具成本效益」,因為它可以使用現有的乙太網路基礎設施,但這是一種過度簡化。要達到類似 InfiniBand 的效能,需要一個完美設定的無損乙太網路。設定資料中心橋接 (DCB) 功能 (如 PFC 和 ECN) 的複雜性可能遠高於設定 InfiniBand 網路。這種複雜性導致了更高的網路設計、故障排除和管理營運成本,並且可能需要更昂貴的乙太網路交換器。因此,RoCE 最初的硬體節省可能會被這些更高的營運成本所抵銷。全面的總體擁有成本 (TCO) 分析對於準確比較至關重要。
D. 主要應用
RoCE v2 是許多資料中心和企業應用的絕佳解決方案。它特別適合需要超低延遲和高吞吐量的環境,例如 AI 工作負載、高頻交易和即時分析。它還能改善依賴資料庫或檔案 I/O 的應用程式效能。此外,RoCE v2 透過實現快速高效的資料複製,有助於業務連續性和災難復原。它在 AI 訓練叢集中的廣泛應用凸顯了其在現代運算中的重要性。
四、InfiniBand:專業的高效能網狀架構
InfiniBand 是一流的高效能互連技術,從一開始就為嚴苛的運算環境提供無與倫比的速度、最低的延遲和高可靠性而設計。
A. 架構原則
- 原生 RDMA: InfiniBand 的設計將 RDMA 整合到其整個協定堆疊中,從實體層到上層。這種從頭開始的設計確保 RDMA 操作高度高效,無需 CPU 介入即可在節點之間建立直接且受保護的資料通道。
- 交換式網狀架構拓撲: InfiniBand 使用交換式網狀架構拓撲,在設備之間建立直接的點對點連接。該架構包括處理器上的主機通道介面卡 (HCA) 和周邊設備上的目標通道介面卡 (TCA),以實現高效通訊。
- 基於信用的流量控制: InfiniBand 的一個核心特性是其基於信用的流量控制。這種硬體級演算法透過確保發送方僅在接收方有足夠的緩衝空間 (信用) 接收資料時才傳輸,來保證無損通訊。這種原生可靠性可防止封包遺失,並使 InfiniBand 與需要更高層設定才能實現無損的技術區分開來。
- 專有標準: InfiniBand 遵循由 1999 年成立的 InfiniBand 貿易協會 (IBTA) 定義的專有標準。其生態系主要由 NVIDIA (透過收購 Mellanox) 主導,該公司是 InfiniBand 介面卡和交換器的主要製造商。
B. 效能概況
- 超低延遲: InfiniBand 持續提供最低的延遲。介面卡延遲可低至 0.5 微秒,交換器埠到埠的延遲約為 100 奈秒,遠低於同級乙太網路交換器的 230 奈秒。在應用程式層,InfiniBand 可實現低至 2 微秒的延遲,而 TCP/IP 則為 50 微秒。
- 高吞吐量能力: InfiniBand 支援極高的資料速率。現代版本如 HDR 和 NDR 提供每通道高達 200 Gbps 和 400 Gbps 的速度。聚合鏈路可實現更高的吞吐量,達到 800 Gbps (NDR) 甚至 1.6 Tbps (XDR)。
- CPU 效率: InfiniBand 的一個關鍵優勢是它能夠在幾乎不使用 CPU 的情況下提供超低延遲和極高頻寬。這種網路處理的卸載功能對於運算密集型工作負載是一個至關重要的好處。
- 設計使然的效能 vs. 設定達成的效能: InfiniBand 和 RoCE 在方法上有根本區別。InfiniBand 是從頭開始為 RDMA 設計的,其物理層和傳輸層專為硬體級可靠性而打造,包括一個用於無損通訊的原生信用演算法。相比之下,RoCE 在標準乙太網路上運行,並依賴對優先流量控制 (PFC) 和明確擁塞通知 (ECN) 等功能的設定來創建無損網路。這意味著 InfiniBand 開箱即用就能提供保證的高效能,而 RoCE 的效能則取決於底層乙太網路設定的品質。
C. 基礎設施與管理
- 專用硬體: InfiniBand 需要專門的硬體,包括專用的主機通道介面卡 (HCA)、交換器、路由器和專有纜線。這通常導致初始投資高於基於乙太網路的解決方案。
- 集中式管理: InfiniBand 網路由一個中央的子網路管理器 (SM) 管理,該管理器計算和分發轉發表,並管理分區和服務品質 (QoS) 等設定。這種集中式方法可以在初始設定後簡化大型叢集的管理。
- 專業知識: 部署和維護 InfiniBand 網路通常需要專業知識,這可能會增加營運成本並為 IT 人員帶來更陡峭的學習曲線。
- 生態系: InfiniBand 的生態系成熟但由 NVIDIA/Mellanox 主導。
D. 主要應用
InfiniBand 是高效能運算 (HPC) 環境的行業標準,也是這些應用中成長最快的互連技術。它是 IBTA 推薦的主要技術。其超低延遲和高頻寬對於大型 AI/ML 模型訓練、大數據分析和大規模資料庫操作等要求嚴苛的工作負載至關重要。它對於大型模擬 (例如天氣預報) 和高頻金融服務等速度和資料完整性至關重要的領域也同樣關鍵。截至 2022 年 6 月,全球 Top100 超級電腦中有 62% 使用 InfiniBand。
五、iWARP:基於標準 TCP/IP 的 RDMA
iWARP (網際網路廣域 RDMA 協定) 是實現 RDMA 的另一種方法,因其使用標準的 TCP/IP 協定套件而聞名。
A. 架構原則
- 基於 TCP/IP 的 RDMA: iWARP 是一種在標準 IP 網路上實現 RDMA 的協定。與使用 UDP 的 RoCE 不同,iWARP 建立在可靠的傳輸協定 (如 TCP 和 SCTP) 之上。
- 關鍵元件: iWARP 的運作依賴於幾個元件。直接資料放置協定 (DDP) 透過將資料直接放入應用程式的記憶體中來實現零複製傳輸。遠端直接記憶體存取協定 (RDMAP) 提供 RDMA 讀寫操作的服務。還需要一個特定的適應層,即標記 PDU 對齊 (MPA) 框架,才能在 TCP 上啟用 DDP。
- 可靠性: iWARP 的一個獨特之處在於其可靠性由底層的 TCP 協定提供。這與使用 UDP 並需要外部機制 (如資料中心橋接 (DCB)) 來保證可靠性的 RoCE v2 不同。因此,iWARP 僅支援可靠的連接式通訊。
B. 效能概況
- 延遲與吞吐量比較: 儘管 iWARP 的延遲低於傳統 TCP/IP,但其效能通常遜於 RoCE。2011 年,最低的 iWARP HCA 延遲為 3 微秒,而 RoCE HCA 則達到 1.3 微秒。基準測試一致顯示 RoCE 傳遞訊息的速度遠快於 iWARP,在 40GbE 時吞吐量高出 2 倍以上,在 10GbE 時高出 5 倍以上。
- CPU 卸載: 與其他 RDMA 協定一樣,iWARP 透過啟用直接記憶體傳輸來最大限度地減少 CPU 負載。它可以使用帶有 RDMA 硬體的 TCP 卸載引擎 (TOE) 來實現零複製結果並進一步減少 CPU 的介入。
C. 基礎設施與管理
- 與標準乙太網路的相容性: iWARP 的一個主要優點是它能夠在標準乙太網路基礎設施上運行,對現有網路的改動極少。這讓組織能夠利用其現有投資。
- 硬體需求: 儘管與標準乙太網路交換器相容,但 iWARP 仍然需要在端點安裝支援 iWARP 的網卡。
- 整合層面: iWARP 已整合到主要作業系統中,如 Microsoft Windows Server 和現代 Linux 核心。這支援了如 SMB Direct、iSCSI 的 RDMA 擴充 (iSER) 和基於 RDMA 的網路檔案系統 (NFS over RDMA) 等應用。
- 管理挑戰: 管理 iWARP 流量可能很困難。它與 TCP 共用埠空間,這使得流量管理複雜化,難以識別 RDMA 流量。總體而言,iWARP 被認為比 RoCE 更難管理。
D. 市場相關性
- 有限的採用率: 與 InfiniBand 和 RoCE v2 相比,iWARP 是一種「不常見」或「較少使用」的 RDMA 實作。由於實施和部署方面的挑戰,其解決方案的「成功有限」。
- 依賴 TCP 的矛盾: iWARP 將 RDMA 疊加在 TCP 之上的設計選擇,提供了內建的可靠性和相容性,但矛盾的是,這也使其無法完全實現 RDMA 的核心優勢。TCP 協定固有的額外負擔,即使有硬體卸載,似乎也讓 iWARP 無法達到 InfiniBand 或 RoCE 的超低延遲和高吞吐量。這種效能上的權衡導致了其有限的市場採用率。
六、比較分析:RoCE v2 vs. InfiniBand vs. iWARP vs. 標準乙太網路
對效能、基礎設施和營運指標進行詳細比較,是選擇正確的高效能互連技術的關鍵。
A. 效能基準
這些互連技術的效能差異巨大,尤其是在延遲、頻寬和 CPU 使用率方面。
- 延遲:
- InfiniBand: 提供最低的延遲。交換器埠到埠的延遲約為 100 奈秒,而介面卡延遲低至 0.5 至 1.3 微秒。應用層延遲可低至 2 微秒。
- RoCE v2: 提供超低延遲。乙太網路交換器延遲約為 230 奈秒,而 HCA 延遲可低至 1.3 微秒。應用層延遲通常約為 5 微秒。
- iWARP: 延遲高於 RoCE,據報 HCA 延遲約為 3 微秒 (2011 年數據)。其效能始終遜於 RoCE。
- 標準 TCP/IP: 延遲最高,單向延遲從 10 到 55 毫秒不等。應用層延遲通常約為 50 微秒。
- 頻寬:
- InfiniBand: 支援非常高的頻寬。現代版本如 NDR 提供每埠高達 400 Gbps,XDR 達到 800 Gbps。未來的 GDR 預計將達到 1.6 Tbps。
- RoCE v2: 能夠實現高頻寬,支援每埠高達 400 Gbps。
- iWARP: 吞吐量通常低於 RoCE。
- 標準 TCP/IP: 吞吐量常受協定額外負擔和重傳的限制,難以有效利用高頻寬鏈路。
- CPU 卸載:
- InfiniBand, RoCE v2, iWARP: 這三種 RDMA 技術都透過繞過作業系統來卸載大量 CPU 工作,為其他任務釋放 CPU 資源。
- 標準 TCP/IP: 由於核心大量參與資料處理,會產生高 CPU 負載。
- 無損機制:
- InfiniBand: 具有原生的、基於硬體信用的流量控制,保證無損通訊。
- RoCE v2: 依賴於無損乙太網路設定,使用資料中心橋接 (DCB) 功能,如 PFC 和 ECN。它還具有端到端的可靠傳輸機制,並配有硬體重傳功能。
- iWARP: 使用 TCP 內建的可靠傳輸來確保資料完整性。
- 標準 TCP/IP: 使用盡力而為的傳輸模型,依靠更高層的重傳來確保可靠性,這會增加延遲。
下表總結了效能特性:
| 特性 | InfiniBand | RoCE v2 | iWARP | 標準乙太網路/TCP/IP |
|---|---|---|---|---|
| 核心技術 | 原生 RDMA | 基於乙太網路的 RDMA (UDP/IP) | 基於乙太網路的 RDMA (TCP/IP) | 傳統分層協定 |
| 典型應用延遲 (µs) | 2 | 5 | >3 (2011 年 HCA) | 50 |
| 交換器埠到埠延遲 (ns) | 100 | 230 | 不適用 (依賴乙太網路) | 通常更高,不固定 |
| 最大頻寬 (Gbps 每埠/鏈路) | 400 (NDR), 800 (XDR), 1.6T (GDR) | 400 | 通常低於 RoCE | 400+ (但受協定額外負擔限制) |
| CPU 額外負擔 | 接近零 | 非常低 | 低 | 高 |
| 無損機制 | 原生信用式流量控制 | 需要無損乙太網路 (PFC, ECN) | TCP 的可靠傳輸 | 盡力而為,依賴重傳 |
| 可路由性 (L2/L3) | L3 (透過子網路管理器) | L3 (可路由 RoCE) | L3 | L3 (標準 IP 路由) |
B. 基礎設施與生態系
- 硬體依賴性:
- InfiniBand: 需要一整套專門的硬體,包括 InfiniBand HCA、交換器和專有纜線。
- RoCE v2: 需要支援 RoCE 的 HCA,但可在標準乙太網路交換器和纜線上運作,允許與現有網路整合。
- iWARP: 需要支援 iWARP 的網卡,但可使用標準乙太網路交換器。
- 標準乙太網路: 使用廣泛可用、商品化的乙太網路 NIC 和交換器。
- 廠商鎖定:
- InfiniBand: 生態系有限且由 Mellanox (NVIDIA) 主導,可能引發對廠商鎖定的擔憂。
- RoCE v2: 受益於龐大且競爭激烈的乙太網路生態系,有多家供應商。有些廠商提供支援 RoCE 和 iWARP 的「通用 RDMA」NIC,減少了鎖定問題。
- iWARP: 也受益於廣泛的乙太網路生態系,有 Intel 和 Chelsio 等供應商的支持。
- 互通性:
- InfiniBand: 作為一種專有標準,所有元件都必須遵守 IBTA 規範以確保它們能夠協同工作。
- RoCE v2: 其基於標準乙太網路的基礎使其具有更廣泛的互通性,更容易與現有網路整合。
- iWARP: 基於標準 IETF RFC 的 TCP/IP,確保在標準 IP 網路中具有高度相容性。
C. 成本效益
- 初始投資:
- InfiniBand: 由於專門的硬體和授權,通常需要更高的初始投資。對於大型 AI 叢集,InfiniBand 交換器的成本可能遠高於 RoCE 交換器。
- RoCE v2: 通常是更具成本效益的選擇,因為它可以與現有的乙太網路整合,減少新硬體成本。在大型 AI 叢集中,交換器的節省可能相當可觀 (與 InfiniBand 相比可節省 49% 至 70%)。
- iWARP: 使用標準乙太網路交換器,但需要專門的介面卡,這仍然可能是一筆顯著的成本。
- 標準乙太網路: 由於其商品化硬體,通常是成本最低的選擇。
- 總體擁有成本 (TCO):
- InfiniBand: 由於專門的硬體、維護以及需要對專有技術進行員工培訓,其 TCO 往往較高。
- RoCE v2: TCO 可能較低,但這是有條件的。設定和維護無損乙太網路的複雜性可能會顯著增加營運成本。雖然初始硬體成本可能較低,但設計、故障排除和維護所需的專業知識和精力可能會抵銷這些節省。因此,「成本效益」取決於硬體價格以及組織的專業知識和管理負擔。
- iWARP: 整合和管理方面的挑戰可能會影響其整體 TCO。
下表提供了基礎設施和成本考量的比較概覽:
| 特性 | InfiniBand | RoCE v2 | iWARP | 標準乙太網路/TCP/IP |
|---|---|---|---|---|
| 所需網路硬體 | 專用 IB NIC、IB 交換器、IB 纜線 | 支援 RoCE 的 NIC、標準乙太網路交換器/纜線 | 支援 iWARP 的 NIC、標準乙太網路交換器/纜線 | 標準乙太網路 NIC、乙太網路交換器/纜線 |
| 網路相容性 | 專有 (IBTA 標準) | 標準乙太網路 (IEEE) | 標準乙太網路 (IETF RFCs) | 標準乙太網路 (IEEE) |
| 管理複雜度 | 困難 (專門的 SM) | 困難 (無損乙太網路設定) | 比 RoCE 更困難 | 簡單 |
| 初始硬體成本 (相對) | 高 | 中等 (利用現有) | 中等 (專門的 NIC) | 低 |
| 總體擁有成本 (相對) | 較高 | 較低 (取決於管理) | 不定 (整合挑戰) | 最低 |
| 供應商生態系 | 有限 (NVIDIA/Mellanox 主導) | 廣泛 (多家乙太網路供應商) | 廣泛 (多家乙太網路供應商) | 非常廣泛 |
D. 擴展性與靈活性
- 路由能力:
- InfiniBand: 使用交換式網狀架構,路由由子網路管理器 (SM) 集中管理。它具有高度擴展性,支援超過 100,000 個節點的叢集。
- RoCE v2: 其 UDP/IP 封裝使其能夠在第 3 層 IP 網路上路由,使其能夠在大型網路和雲端環境中擴展。它還支援 ECMP 以實現高效的負載平衡。
- iWARP: 可在 IP 網路上路由。
- 標準乙太網路: 具有高度擴展性和靈活性,但可能需要如 Spint-Leaf 等先進架構才能達到 HPC 等級的效率。
- 網路拓撲:
- InfiniBand: 針對 HPC/AI 叢集進行了優化,支援如胖樹 (Fat Tree)、蜻蜓+ (Dragonfly+) 和多維環狀 (Torus) 等高效能拓撲。
- RoCE v2: 其基於 IP 的路由使其能適應幾乎任何網路拓撲。
- 標準乙太網路: 支援多種拓撲,包括星狀和網狀。
E. 可靠性與擁塞控制
- 可靠性:
- InfiniBand: 憑藉其基於信用的流量控制,提供原生的硬體級可靠性,保證無損通訊。
- RoCE v2: 依賴使用 PFC 和 ETS 的無損乙太網路設定。它還包括一個具備硬體封包重傳的端到端可靠傳輸機制。
- iWARP: 受益於 TCP 固有的可靠性,提供錯誤校正和重傳。
- 標準 TCP/IP: 透過重傳專注於可靠性,這會增加顯著的延遲並降低吞吐量。
- 擁塞控制:
- InfiniBand: 定義了自己的擁塞控制機制,基於 FECN/BECN 標記。
- RoCE v2: 實作了一個使用 IP ECN 位元和擁塞通知封包 (CNP) 的擁塞控制協定。業界實踐如 DCQCN 也被使用。
- iWARP: 依賴於 TCP 已建立的擁塞控制演算法。
F. 應用適用性
- InfiniBand: 是需要最高資料吞吐量和最低延遲環境的理想選擇。這包括科學研究、金融建模、大規模 HPC 叢集以及要求最嚴苛的 AI/ML 訓練工作負載。
- RoCE v2: 受到希望利用現有乙太網路基礎設施同時仍需要高效能的企業青睞。它非常適合儲存網路、即時分析和雲端服務,在效能和成本之間取得了平衡。
- iWARP: 可考慮用於利基應用,其中現有的 TCP/IP 基礎設施是嚴格要求,且超低延遲不是首要任務。它適用於 NVMeoF、iSER、SMB Direct 和 NFS over RDMA 等應用,或作為測試環境的低成本選項。
- 標準乙太網路/TCP/IP: 仍然是通用網路的最佳選擇,例如企業區域網路和雲端基礎設施,其中極致的 HPC/AI 效能不是主要目標。
- 效能-成本-複雜度的三難困境: 本分析揭示了選擇互連技術時的一個根本權衡:效能、成本和複雜度之間的三難困境。InfiniBand 提供頂級效能和原生可靠性,但成本較高。RoCE v2 在乙太網路上提供接近 InfiniBand 的效能,可能降低硬體成本,但增加了顯著的設定複雜性。iWARP 在 TCP 上提供 RDMA,但效能較低。標準乙太網路具成本效益,但缺乏支援嚴苛工作負載的效能。沒有單一的「最佳」解決方案;正確的選擇需要根據具體需求和能力平衡這三個因素。
下表概述了每種技術的應用適用性:
| 技術 | 主要使用案例 | 最適合 | 較不適合 |
|---|---|---|---|
| InfiniBand | HPC、AI/ML 訓練、大數據分析、金融服務 (套利) | 要求絕對最低延遲、最高頻寬和原生無損保證的環境 | 對成本敏感的一般企業網路、缺乏專業 IT 知識的環境 |
| RoCE v2 | 資料中心、雲端服務、儲存網路、即時分析、AI/ML 推理 | 利用現有乙太網路基礎設施實現高效能的組織;在成本和效能之間取得平衡 | 無法透過大量設定專業知識來確保原生無損保證的環境 |
| iWARP | NVMeoF、iSER、SMB Direct、NFS over RDMA、測試/開發環境 | 需要在現有 TCP/IP 上實現 RDMA 的特定應用,其中絕對峰值效能不是關鍵 | 大規模 HPC/AI 叢集、延遲敏感的即時應用 |
| 標準乙太網路/TCP/IP | 一般企業網路、區域網路、網際網路連接、雲端基礎設施 | 無處不在、具成本效益且靈活的通用網路 | 高效能運算、AI/ML 訓練以及其他延遲敏感、CPU 密集型的工作負載 |
七、新興高效能互連技術與未來趨勢
在資料密集型工作負載和對更高效率需求的推動下,高效能網路領域不斷變化。除了既有的 RDMA 技術,新的互連技術和趨勢正在塑造資料中心的未來。
A. 運算快連 (CXL)
CXL 是一種建立在 PCIe 實體層上的現代互連技術,專為通用運算系統設計。其主要目標是實現 CPU 與加速器 (如 GPU 和 FPGA) 之間快速、無縫的通訊。
CXL 的主要特性包括高速資料傳輸、廣泛的相容性,以及透過快取一致性實現的高效記憶體共享。它支援三種類型的設備 (用於加速器、快取一致性設備和記憶體擴充器) 和靈活的拓撲。CXL/PCIe Gen5 提供 512 Gbps 的峰值吞吐量,延遲約為 500 奈秒。雖然 InfiniBand 的延遲更低 (約 100 奈秒),但對於需要快取一致性的低延遲記憶體存取,CXL 更具優勢。
一個重大的發展是 Gen-Z 和 CXL 聯盟於 2022 年合併,這使 CXL 成為這類以記憶體為中心的互連技術的唯一行業標準。
CXL 代表著從傳統的節點對節點網路 (如 RoCE 和 InfiniBand) 向記憶體一致性和資源解構的轉變。這意味著對於某些工作負載,CXL 可能成為主要的互連技術,補充或減少對傳統網路架構的需求。
B. NVLink
NVLink 是 NVIDIA 的專有高頻寬、低延遲互連技術,專為其加速運算平台內的 GPU 對 GPU 和 GPU 對 CPU 的直接通訊而設計。
NVLink 是 NVIDIA AI 和 HPC 解決方案 (如其 GB200 和 GB300 架構) 的關鍵部分。它透過在 GPU 之間提供極快的資料傳輸,對於擴展 AI 模型訓練至關重要。
NVLink 展現了垂直整合和專業化效能的趨勢。其專有性與 RoCE 或 InfiniBand 等開放標準形成對比。這種設計在單一供應商的硬體堆疊中最大化了效能。雖然 InfiniBand 和 RoCE 處理節點間的一般網路,但 NVLink 優化了 GPU 系統內部和之間的通訊,創造了一種分層的互連架構,其中不同的技術服務於不同的需求。
C. 未來的乙太網路速度
乙太網路已從 10 Mbps 發展到 400 Gbps,並且隨著 800GbE 和 1.6TbE 標準的出現,發展仍在繼續。這些更快的速度對於下一代應用程式 (如量子運算、先進 AI 和沉浸式技術) 將至關重要。
乙太網路速度的持續提升直接使 RoCE 受益。由於 RoCE 建立在乙太網路上,它會自動從這些進步中獲益,有助於其與 InfiniBand 保持競爭力。雲端服務的增長已在推動 200GbE 和 400GbE 的部署,而 800GbE 和 1.6TbE 也即將到來。
乙太網路和 RoCE 的持續相關性密切相關。隨著乙太網路速度的進步,RoCE 成為高效能資料中心更強大的競爭者,特別是對於希望利用現有乙太網路投資並避免專有生態系的組織而言。
D. 解構式運算與光子學
- 解構式運算: 這種新方法旨在透過將運算、儲存和記憶體等資源從傳統伺服器中解耦,來提高資料中心的效率。這些資源隨後被重新組合成由先進網路連接的靈活資源池。一個關鍵結果是,曾經在伺服器內部發生的通訊現在需要跨越網路,這大幅增加了負載,並使超低延遲變得至關重要。這一趨勢強化了對 RoCE 和 InfiniBand 等高效能互連技術的需求,並推動了 CXL 等新技術的發展。
- 資料中心網路中的光子學: 矽光子學將光學元件整合到矽晶片上,實現了高速、低功耗的光學互連。與傳統銅線相比,該技術提供了更快的資料傳輸速率 (超過 100 Gbps)、更低的延遲和更高的能源效率。它正成為滿足資料中心日益增長的流量需求和實現下一代高速乙太網路的關鍵。
這些趨勢之間的關係是共生的。解構式架構需要先進的網路,而 RoCE、InfiniBand 和 CXL 等互連技術正好提供了這種能力。反過來,要實現這些互連技術所需的速度,特別是對於未來的 800GbE 和 1.6TbE 標準,將有賴於矽光子學等技術。
八、建議與結論
選擇高效能互連技術是一項關鍵的策略決策,必須與組織的特定需求、預算、基礎設施和長期願景保持一致。
- 對於追求極致原始效能和關鍵任務的 HPC/AI: InfiniBand 是明確的黃金標準。其原生的 RDMA、基於信用的流量控制和專門的設計,提供了最低的延遲和最高的吞吐量,並保證無損效能。擁有預算和專業知識的組織應為大規模叢集選擇 InfiniBand,在這些叢集中,每一微秒都至關重要。
- 對於兼具高效能、成本效益和乙太網路整合的需求: RoCE v2 是一個強大且日益普及的替代方案。它提供了超越 TCP/IP 的顯著效能提升,並可透過使用現有乙太網路基礎設施來接近 InfiniBand 的效能。它非常適合那些希望在不進行全面改造的情況下升級其資料中心的組織。然而,這一選擇需要致力於仔細設定和管理無損乙太網路架構。
- 對於利基應用或在 TCP 環境下的傳統 RDMA: 在特定情況下,iWARP 可能是合適的,特別是在必須使用現有 TCP/IP 基礎設施且峰值效能不是主要目標的情況下。然而,其較低的效能和較高的管理複雜性限制了其在現代高效能部署中的應用。
- 對於通用網路: 標準乙太網路/TCP/IP 仍然是沒有極致效能需求的環境中最常見和最具成本效益的選擇。其易用性和商品化硬體使其非常適合一般企業網路、區域網路和標準雲端基礎設施。
- 考慮新興技術以實現未來保障: 組織應關注 CXL 在以記憶體為中心和解構式架構中的發展,因為它透過優化資源池化來補充傳統的網路架構。同樣,NVLink 對於優化 NVIDIA GPU 密集型系統內的通訊至關重要。這些技術顯示了針對運算層級不同層次的互連技術的多樣化趨勢。此外,800GbE 和 1.6TbE 乙太網路的發展,以及光子學的進步,將繼續使 RoCE 成為一個更強大的選擇。
總之,高效能網路的領域是複雜的,受到 AI、HPC 和向解構式運算轉變的需求所驅動。雖然 InfiniBand 在專業環境中的絕對效能領先,但 RoCE v2 提供了一個強大而靈活的替代方案,將 RDMA 的優勢與乙太網路的普遍性結合起來。CXL 和 NVLink 的出現表明了互連技術的策略性多樣化,優化了不同的通訊層次。最佳解決方案將永遠是在效能需求、成本、現有基礎設施和前瞻性願景之間的策略性平衡。




