高性能互连技术综合分析:RoCE v2、InfiniBand、iWARP 及现代数据中心的新兴替代方案

分类:Hardware
Save and Share:

一、执行摘要

现代数据中心必须支持高性能计算 (HPC)、人工智能/机器学习 (AI/ML) 和大数据分析等要求严苛的工作负载。这些应用需要超低延迟、高带宽和极低的 CPU 使用率。传统的网络协议(如 TCP/IP)由于其高开销和高延迟,已无法满足这些需求。

远程直接内存访问 (RDMA) 是实现高性能互连的关键技术。RDMA 允许联网的计算机直接在其内存之间传输数据(内存到内存),而无需操作系统或 CPU 的介入。这一过程极大地降低了延迟和 CPU 负载。

  • InfiniBand 是一种专为实现最高性能和原生无损操作而设计的专用架构。
  • RoCE v2 (RDMA over Converged Ethernet) 将 RDMA 的优势应用于标准以太网,提供了一种可路由且更具成本效益的选择,但需要特定配置才能实现无损传输。
  • iWARP 是另一种基于 TCP 的 RDMA-over-Ethernet 解决方案,但通常不如 RoCE v2 普及,性能也较低。

选择合适的互连技术是一项战略决策,取决于性能需求、预算、现有基础设施和可扩展性目标。本报告将分析这些技术,将其与标准以太网/TCP/IP 进行比较,并探讨 CXL 和 NVLink 等新兴替代方案,以帮助指导这一关键决策。

二、高性能网络与 RDMA 简介

当今数字世界中,高性能计算 (HPC)、人工智能/机器学习 (AI/ML) 和大数据分析等数据密集型应用呈指数级增长。这些工作负载必须在计算节点和存储之间快速高效地移动海量数据集。例如,AI 应用对数据完整性高度敏感,需要无损网络,因为单个消息的丢失就可能毁掉整个训练过程。高带宽流量对于这些应用高效处理数据也至关重要。

传统 TCP/IP 以太网在高性能应用中的局限性

虽然传统 TCP/IP 以太网在通用网络中表现可靠,但在高性能应用中存在重大局限性:

  • 高延迟和 CPU 开销: TCP/IP 的设计需要通过操作系统内核中的多个软件层发送数据,这需要大量的 CPU 介入。此过程会增加相当大的延迟(通常为几十微秒),并给 CPU 带来沉重负担。对于延迟敏感型应用,这成为一个主要瓶颈,因为 CPU 将时间花在管理网络流量上,而不是运行应用程序。这种由上下文切换和数据复制产生的“CPU 税”是采用 RDMA 技术的主要原因,RDMA 技术可以卸载网络处理,从而释放 CPU 用于应用任务。
  • 吞吐量限制: 多个因素限制了 TCP 的有效吞吐量,包括传输窗口大小、分段大小和数据包丢失。标准的 TCP 窗口大小(通常上限为 65,535 字节)可能会妨碍高带宽链路的充分利用,尤其是在延迟较高的网络中。此外,TCP 的核心可靠性机制——数据包重传——会引入延迟并占用额外带宽,从而在拥塞或有损网络中影响性能。
  • 可扩展性挑战: 尽管 TCP/IP 在大型网络中扩展性良好,但其设计优先考虑的是通用可靠性,而非原始性能。这使得它在需要极致吞吐量和最小延迟的场景中(如大规模 HPC 集群或实时 AI 推理)效率较低。

远程直接内存访问 (RDMA) 的基本原理及其核心优势

远程直接内存访问 (RDMA) 的开发旨在克服 TCP/IP 在高性能环境中的局限性。其主要优势来自于在数据传输过程中绕过 CPU 和操作系统:

  • 直接内存访问(零拷贝): RDMA 将数据直接从一台计算机的内存传输到另一台计算机的内存,而无需任何一方系统 CPU 或操作系统的介入。这种“零拷贝”方法消除了中间数据缓冲区和上下文切换,这些是传统网络中的主要开销来源。
  • 降低延迟和 CPU 负载: 通过绕过 CPU 和操作系统,RDMA 极大地减少了通信延迟并释放了 CPU 周期。这直接带来了更快的计算速度和更好的实时数据处理能力。例如,应用延迟可以从使用 TCP/IP 的约 50 微秒降至使用 RDMA 的 2-5 微秒。
  • 更高的带宽利用率: RDMA 高效的数据路径和减少的开销使应用程序能够更好地利用可用网络带宽,从而实现更高的有效吞吐量。
  • 主要实现方式: 当今使用的主要 RDMA 技术是 InfiniBand、RoCE(版本 1 和 2)和 iWARP。

三、RoCE v2:融合以太网上的 RDMA

RoCE v2 是高性能网络领域的一大进步,它将 RDMA 的优势扩展到了广泛使用的以太网生态系统中。

A. 架构原理

  • 从 RoCE v1 的演进: RoCE v1 是一种第二层协议(以太类型 0x8915),这将其限制在单个以太网广播域内,限制了其可扩展性。RoCE v2 通过在互联网层运行解决了这个问题。它将 RDMA 流量封装在 UDP/IP 数据包中(使用 UDP 目标端口 4791),使其可以在第三层 IP 网络中路由。这种可路由性是一项关键改进,使得 RoCE v2 能够用于大规模数据中心和云环境。
  • RDMA over Ethernet 集成: RoCE 提供了一种在标准以太网上执行 RDMA 的方法。它有效地用 IP 和 UDP 报头取代了 InfiniBand 网络层,同时保留了核心的 InfiniBand 传输层和 RDMA 协议。这种设计使得 RoCE 能够利用现有的以太网基础设施。
  • 数据包格式: 一个 RoCE v2 数据包包括一个 IP 报头和一个 UDP 报头,它们封装了 RDMA 传输协议。尽管 UDP 不保证数据包顺序,但 RoCE v2 标准要求具有相同源端口和目标地址的数据包不能被重新排序。
  • “两全其美”的折衷方案: RoCE v2 的设计是一种战略性的折衷,旨在在灵活、经济高效且无处不在的以太网平台上实现 RDMA 的高性能。虽然这种方法提供了广泛的兼容性,但它也带来了一个关键挑战:在本质上有损的以太网上确保 RDMA 所需的无损性能。

B. 性能概况

  • 延迟: RoCE 主机通道适配器 (HCA) 可以实现极低的延迟,低至 1.3 微秒。在应用层面,RoCE 将延迟降低到约 5 微秒,与 TCP/IP 典型的 50 微秒相比,这是一个巨大的进步。尽管 InfiniBand 的原生延迟略低,但 RoCE 的性能对于实时应用来说非常出色。
  • 带宽: RoCE v2 支持高带宽,每个端口的速度高达 400 Gbps。
  • CPU 卸载: 与其他 RDMA 协议一样,RoCE 在数据传输中绕过了 CPU。这种卸载功能将宝贵的 CPU 资源从网络处理中解放出来,用于计算密集型任务。
  • 无损性能: 为了与 InfiniBand 的性能相媲美,RoCE 依赖于无损以太网。这通常通过实施数据中心桥接 (DCB) 功能来实现,特别是优先级流控制 (PFC) 和显式拥塞通知 (ECN)。

C. 基础设施与管理

  • 硬件/软件要求: RoCE 可以与交换机和线缆等标准以太网硬件配合使用,允许组织利用其现有基础设施。但是,它要求在端点处配备支持 RoCE 的主机通道适配器 (HCA)。软件支持已经成熟,Mellanox OFED 2.3+ 中有实现,并已集成到 Linux 内核 v4.5+ 中。
  • 无损网络配置: 尽管 RoCE 使用标准以太网,但创建一个无损的 DCB 网络可能比设置 InfiniBand 网络更为复杂。从端点到交换机的每个组件都必须仔细配置。这包括设置优先级流控制 (PFC)、增强传输选择 (ETS) 和拥塞通知机制。为了跨第三层网络工作,这些无损特性必须在路由器之间保持,通常通过将第二层优先级设置映射到第三层 DSCP QoS 设置来实现。
  • 管理考量: RoCE 可以使用标准的以太网工具进行管理。然而,在大规模 RoCE v2 部署中,确保一致的无损性能和管理拥塞可能具有挑战性,需要专业知识。
  • “成本效益”背后的隐性成本: RoCE 通常被称为“成本效益高”,因为它可以使用现有的以太网基础设施,但这是一种过于简化的说法。要实现类似 InfiniBand 的性能,需要一个完美配置的无损以太网。设置数据中心桥接 (DCB) 功能(如 PFC 和 ECN)的复杂性可能远高于配置 InfiniBand 网络。这种复杂性导致网络设计、故障排除和管理的运营成本更高,并且可能需要更昂贵的以太网交换机。因此,RoCE 最初的硬件节省可能会被这些更高的运营成本所抵消。进行全面的总拥有成本 (TCO) 分析对于准确比较至关重要。

D. 关键应用

RoCE v2 是许多数据中心和企业应用的绝佳解决方案。它特别适用于需要超低延迟和高吞吐量的环境,例如 AI 工作负载、高频交易和实时分析。它还能提高依赖数据库或文件 I/O 的应用程序的性能。此外,RoCE v2 通过实现快速高效的数据复制,有助于业务连续性和灾难恢复。它在 AI 训练集群中的广泛使用突显了其在现代计算中的重要性。

四、InfiniBand:专用高性能架构

InfiniBand 是一流的高性能互连技术,从设计之初就旨在为要求苛刻的计算环境提供无与伦比的速度、最低的延迟和高可靠性。

A. 架构原理

  • 原生 RDMA: InfiniBand 的整个协议栈(从物理层到上层)都集成了 RDMA。这种从头开始的设计确保了 RDMA 操作的高效性,在节点之间创建了直接且受保护的数据通道,无需 CPU 介入。
  • 交换式架构拓扑: InfiniBand 采用交换式架构拓扑,实现设备间的直接点对点连接。该架构包括处理器上的主机通道适配器 (HCA) 和外围设备上的目标通道适配器 (TCA),从而实现高效通信。
  • 基于信用的流控制: InfiniBand 的一个核心特性是其基于信用的流控制。这种硬件级算法通过确保发送方只有在接收方有足够的缓冲空间(信用)来接收数据时才发送数据,从而保证了无损通信。这种原生可靠性可防止数据包丢失,并将 InfiniBand 与需要更高层配置才能实现无损的技术区分开来。
  • 专有标准: InfiniBand 遵循由 InfiniBand 贸易协会 (IBTA) 定义的专有标准,该协会成立于 1999 年。其生态系统主要由 NVIDIA(通过收购 Mellanox)主导,后者是 InfiniBand 适配器和交换机的领先制造商。

B. 性能概况

  • 超低延迟: InfiniBand 始终提供最低的延迟。适配器延迟可低至 0.5 微秒,交换机端口到端口的延迟约为 100 纳秒,远低于同类以太网交换机的 230 纳秒。在应用层,InfiniBand 可以实现低至 2 微秒的延迟,而 TCP/IP 的延迟为 50 微秒。
  • 高吞吐能力: InfiniBand 支持极高的数据速率。现代版本如 HDR 和 NDR 提供每通道高达 200 Gbps 和 400 Gbps 的速率。聚合链路可以实现更高的吞吐量,达到 800 Gbps (NDR) 甚至 1.6 Tbps (XDR)。
  • CPU 效率: InfiniBand 的一个关键优势是它能够在几乎不占用 CPU 的情况下提供超低延迟和极高带宽。这种网络处理的卸载对于计算密集型工作负载来说是一个至关重要的好处。
  • 设计保证性能 vs. 配置实现性能: InfiniBand 和 RoCE 在方法上存在根本差异。InfiniBand 是从头开始为 RDMA 设计的,其物理层和传输层专为硬件级可靠性而构建,包括用于无损通信的原生信用流控制算法。相比之下,RoCE 运行在标准以太网上,依赖于配置(如优先级流控制 (PFC) 和显式拥塞通知 (ECN))来创建一个无损网络。这意味着 InfiniBand 开箱即用即可提供保证的高性能,而 RoCE 的性能则取决于底层以太网配置的质量。

C. 基础设施与管理

  • 专用硬件: InfiniBand 需要专门的硬件,包括专用的主机通道适配器 (HCA)、交换机、路由器和专有线缆。这通常导致与基于以太网的解决方案相比,初始投资更高。
  • 集中式管理: InfiniBand 网络由一个中央的子网管理器 (SM) 管理,该管理器计算并分发转发表,并管理分区和服务质量 (QoS) 等配置。这种集中式方法可以在初始设置后简化大型集群的管理。
  • 专业知识: 部署和维护 InfiniBand 网络通常需要专业知识,这可能会增加运营成本并为 IT 人员带来更陡峭的学习曲线。
  • 生态系统: InfiniBand 生态系统成熟,但由 NVIDIA/Mellanox 主导。

D. 关键应用

InfiniBand 是高性能计算 (HPC) 环境的行业标准,并且是这些应用中增长最快的互连技术。它是 IBTA 推荐的主要技术。其超低延迟和高带宽对于大规模 AI/ML 模型训练、大数据分析和海量数据库操作等要求严苛的工作负载至关重要。它对于大型模拟(如天气预报)和高频金融服务也至关重要,在这些领域速度和数据完整性至关重要。截至 2022 年 6 月,全球 Top100 超级计算机中有 62% 使用 InfiniBand。

五、iWARP:标准 TCP/IP 上的 RDMA

iWARP (Internet Wide Area RDMA Protocol) 是实现 RDMA 的另一种方法,因其使用标准 TCP/IP 协议套件而著称。

A. 架构原理

  • RDMA over TCP/IP: iWARP 是一种在标准 IP 网络上实现 RDMA 的协议。与使用 UDP 的 RoCE 不同,iWARP 构建在可靠的传输协议(如 TCP 和 SCTP)之上。
  • 关键组件: iWARP 的运行依赖于几个组件。直接数据放置协议 (DDP) 通过将数据直接放入应用程序的内存来实现零拷贝传输。远程直接内存访问协议 (RDMAP) 为 RDMA 读写操作提供服务。还需要一个特定的适配层,即标记 PDU 对齐 (MPA) 帧,以在 TCP 上启用 DDP。
  • 可靠性: iWARP 的一个独特之处在于其可靠性由底层的 TCP 协议提供。这与使用 UDP 并需要外部机制(如数据中心桥接 (DCB))来保证可靠性的 RoCE v2 不同。因此,iWARP 仅支持可靠的、连接的通信。

B. 性能概况

  • 延迟与吞吐量比较: 尽管 iWARP 的延迟低于传统 TCP/IP,但其性能通常比 RoCE 差。2011 年,最低的 iWARP HCA 延迟为 3 微秒,而 RoCE HCA 则达到 1.3 微秒。基准测试一致表明,RoCE 传递消息的速度远快于 iWARP,在 40GbE 网络下吞吐量高出 2 倍以上,在 10GbE 网络下高出 5 倍以上。
  • CPU 卸载: 与其他 RDMA 协议一样,iWARP 通过启用直接内存传输来最小化 CPU 负载。它可以使用带有 RDMA 硬件的 TCP 卸载引擎 (TOE) 来实现零拷贝效果并进一步减少 CPU 的介入。

C. 基础设施与管理

  • 与标准以太网的兼容性: iWARP 的一个主要优点是它能够在标准以太网基础设施上运行,只需对现有网络进行最小的改动。这使得组织能够利用其现有投资。
  • 硬件要求: 尽管与标准以太网交换机兼容,iWARP 仍然需要在端点处配备支持 iWARP 的网卡。
  • 集成方面: iWARP 已集成到主流操作系统中,如 Microsoft Windows Server 和现代 Linux 内核。这支持了诸如 SMB Direct、iSCSI Extensions for RDMA (iSER) 和 Network File System over RDMA (NFS over RDMA) 等应用。
  • 管理挑战: 管理 iWARP 流量可能很困难。它共享 TCP 的端口空间,这使得流量管理复杂化,并难以识别 RDMA 流量。总体而言,iWARP 被认为比 RoCE 更难管理。

D. 市场相关性

  • 有限的采用率: 与 InfiniBand 和 RoCE v2 相比,iWARP 是一种“不常见”或“较少使用”的 RDMA 实现方式。由于实施和部署方面的挑战,其解决方案“成功有限”。
  • 依赖 TCP 的悖论: iWARP 将 RDMA 构建在 TCP 之上的设计选择提供了内置的可靠性和兼容性,但矛盾的是,这也使其无法充分实现 RDMA 的核心优势。TCP 协议固有的开销,即使有硬件卸载,似乎也使 iWARP 无法达到 InfiniBand 或 RoCE 的超低延迟和高吞吐量。这种性能上的权衡导致了其有限的市场采用率。

六、对比分析:RoCE v2 vs. InfiniBand vs. iWARP vs. 标准以太网

对性能、基础设施和运营指标进行详细比较是选择合适的高性能互连技术的关键。

A. 性能基准

这些互连技术的性能差异很大,尤其是在延迟、带宽和 CPU 利用率方面。

  • 延迟:
    • InfiniBand: 提供最低延迟。交换机端口到端口的延迟约为 100 纳秒,而适配器延迟低至 0.5 到 1.3 微秒。应用层延迟可低至 2 微秒。
    • RoCE v2: 提供超低延迟。以太网交换机延迟约为 230 纳秒,而 HCA 延迟可低至 1.3 微秒。应用层延迟通常约为 5 微秒。
    • iWARP: 延迟高于 RoCE,HCA 延迟据报道约为 3 微秒(2011 年数据)。其性能始终不如 RoCE。
    • 标准 TCP/IP: 延迟最高,单向延迟从 10 到 55 毫秒。应用层延迟通常约为 50 微秒。
  • 带宽:
    • InfiniBand: 支持非常高的带宽。现代版本如 NDR 提供每个端口高达 400 Gbps 的速率,XDR 达到 800 Gbps。未来的 GDR 预计将达到 1.6 Tbps。
    • RoCE v2: 能够实现高带宽,支持每个端口高达 400 Gbps。
    • iWARP: 吞吐量通常低于 RoCE。
    • 标准 TCP/IP: 吞吐量通常受协议开销和重传的限制,难以有效利用高带宽链路。
  • CPU 卸载:
    • InfiniBand, RoCE v2, iWARP: 这三种 RDMA 技术都通过绕过操作系统来卸载大量的 CPU 工作,从而为其他任务释放 CPU 资源。
    • 标准 TCP/IP: 由于内核深度参与数据处理,会产生很高的 CPU 负载。
  • 无损机制:
    • InfiniBand: 具有原生的、基于硬件信用的流控制,保证无损通信。
    • RoCE v2: 依赖于无损以太网配置,使用数据中心桥接 (DCB) 功能,如 PFC 和 ECN。它还具有带硬件重传的端到端可靠交付机制。
    • iWARP: 使用 TCP 内置的可靠传输来保证数据完整性。
    • 标准 TCP/IP: 使用尽力而为的交付模型,依赖于更高层的重传来确保可靠性,这会增加延迟。

下表总结了性能特征:

特性 InfiniBand RoCE v2 iWARP 标准以太网/TCP/IP
核心技术 原生 RDMA RDMA over Ethernet (UDP/IP) RDMA over Ethernet (TCP/IP) 传统分层协议
典型应用延迟 (µs) 2 5 >3 (2011 HCA) 50
交换机端口到端口延迟 (ns) 100 230 N/A (依赖以太网) 通常更高,可变
最大带宽 (Gbps 每端口/链路) 400 (NDR), 800 (XDR), 1.6T (GDR) 400 通常低于 RoCE 400+ (但受协议开销限制)
CPU 开销 接近零 非常低
无损机制 原生基于信用的流控制 需要无损以太网 (PFC, ECN) TCP 的可靠传输 尽力而为,依赖重传
可路由性 (L2/L3) L3 (通过子网管理器) L3 (可路由的 RoCE) L3 L3 (标准 IP 路由)

B. 基础设施与生态系统

  • 硬件依赖性:
    • InfiniBand: 需要一整套专用硬件,包括 InfiniBand HCA、交换机和专有线缆。
    • RoCE v2: 需要支持 RoCE 的 HCA,但可在标准以太网交换机和线缆上工作,允许与现有网络集成。
    • iWARP: 需要支持 iWARP 的网卡,但可以使用标准以太网交换机。
    • 标准以太网: 使用广泛可用、商品化的以太网网卡和交换机。
  • 厂商锁定:
    • InfiniBand: 生态系统有限且由 Mellanox (NVIDIA) 主导,这可能引发对厂商锁定的担忧。
    • RoCE v2: 受益于一个庞大且竞争激烈的以太网生态系统,拥有多家供应商。一些供应商提供支持 RoCE 和 iWARP 的“通用 RDMA”网卡,从而减少了锁定。
    • iWARP: 也受益于广泛的以太网生态系统,并得到英特尔和 Chelsio 等供应商的支持。
  • 互操作性:
    • InfiniBand: 作为一个专有标准,所有组件都必须遵守 IBTA 规范以确保它们能够协同工作。
    • RoCE v2: 其基于标准以太网的基础使其具有更广泛的互操作性,并且更容易与现有网络集成。
    • iWARP: 基于标准的 IETF RFCs for TCP/IP,确保在标准 IP 网络内具有高兼容性。

C. 成本效益

  • 初始投资:
    • InfiniBand: 由于专用硬件和许可,通常需要较高的初始投资。对于大型 AI 集群,InfiniBand 交换机可能比 RoCE 交换机贵得多。
    • RoCE v2: 通常是更具成本效益的选择,因为它可以与现有以太网集成,减少了新硬件的成本。在大型 AI 集群中,交换机的节省可能相当可观(与 InfiniBand 相比节省 49% 至 70%)。
    • iWARP: 使用标准以太网交换机,但需要专用适配器,这仍然可能是一笔不小的成本。
    • 标准以太网: 由于其商品化硬件,通常是成本最低的选择。
  • 总拥有成本 (TCO):
    • InfiniBand: 由于专用硬件、维护以及需要对专有技术进行员工培训,其 TCO 往往较高。
    • RoCE v2: TCO 可能较低,但这有条件。配置和维护无损以太网架构的复杂性可能会显著增加运营成本。虽然初始硬件成本可能较低,但设计、故障排除和维护所需的专业知识和精力可能会抵消这些节省。因此,“成本效益”取决于硬件价格以及组织的专业知识和管理负担。
    • iWARP: 集成和管理方面的挑战可能会影响其整体 TCO。

下表提供了基础设施和成本考量的对比概览:

特性 InfiniBand RoCE v2 iWARP 标准以太网/TCP/IP
所需网络硬件 专用 IB 网卡, IB 交换机, IB 线缆 支持 RoCE 的网卡, 标准以太网交换机/线缆 支持 iWARP 的网卡, 标准以太网交换机/线缆 标准以太网网卡, 以太网交换机/线缆
网络兼容性 专有 (IBTA 标准) 标准以太网 (IEEE) 标准以太网 (IETF RFCs) 标准以太网 (IEEE)
管理复杂性 难 (专用 SM) 难 (无损以太网配置) 比 RoCE 更难 简单
初始硬件成本 (相对) 中等 (利用现有) 中等 (专用网卡)
总拥有成本 (相对) 较高 较低 (取决于管理) 可变 (集成挑战) 最低
供应商生态系统 有限 (NVIDIA/Mellanox 主导) 广泛 (多家以太网供应商) 广泛 (多家以太网供应商) 非常广泛

D. 可扩展性与灵活性

  • 路由能力:
    • InfiniBand: 使用由子网管理器 (SM) 集中管理路由的交换式架构。它具有高度可扩展性,支持超过 100,000 个节点的集群。
    • RoCE v2: 其 UDP/IP 封装使其能够跨第三层 IP 网络路由,使其可在大型网络和云环境中扩展。它还支持 ECMP 以实现高效的负载均衡。
    • iWARP: 可在 IP 网络上路由。
    • 标准以太网: 具有高度可扩展性和灵活性,但可能需要高级配置(如胖树-叶脊架构)才能达到 HPC 级别的效率。
  • 网络拓扑:
    • InfiniBand: 针对 HPC/AI 集群优化,支持高性能拓扑,如胖树 (Fat Tree)、蜻蜓+ (Dragonfly+) 和多维环面 (multi-dimensional Torus)。
    • RoCE v2: 其基于 IP 的路由使其能够适应几乎任何网络拓扑。
    • 标准以太网: 支持广泛的拓扑结构,包括星型和网状。

E. 可靠性与拥塞控制

  • 可靠性:
    • InfiniBand: 通过其基于信用的流控制提供原生的、硬件级的可靠性,保证无损通信。
    • RoCE v2: 依赖于使用 PFC 和 ETS 的无损以太网配置。它还包括一个带有基于硬件的数据包重传的端到端可靠交付机制。
    • iWARP: 受益于 TCP 固有的可靠性,该可靠性提供纠错和重传。
    • 标准 TCP/IP: 通过重传注重可靠性,但这会增加显著的延迟并降低吞吐量。
  • 拥塞控制:
    • InfiniBand: 定义了自己基于 FECN/BECN 标记的拥塞控制机制。
    • RoCE v2: 实现了一种使用 IP ECN 位和拥塞通知包 (CNP) 的拥塞控制协议。行业实践如 DCQCN 也被使用。
    • iWARP: 依赖于 TCP 已建立的拥塞控制算法。

F. 应用适用性

  • InfiniBand: 是需要最高数据吞吐量和最低延迟环境的理想选择。这包括科学研究、金融建模、大规模 HPC 集群以及要求最严苛的 AI/ML 训练工作负载。
  • RoCE v2: 受到希望利用现有以太网基础设施同时仍需高性能的企业的青睐。它非常适合存储网络、实时分析和云服务,提供了性能和成本的平衡。
  • iWARP: 在特定场景下可以考虑,特别是在必须使用现有 TCP/IP 基础设施且超低延迟不是首要任务的情况下。它适用于 NVMeoF、iSER、SMB Direct 和 NFS over RDMA 等应用,或作为测试环境的低成本选择。
  • 标准以太网/TCP/IP: 仍然是通用网络的首选,例如没有极端 HPC/AI 性能需求的企业局域网和云基础设施。
  • 性能-成本-复杂性三难困境: 本分析揭示了在选择互连技术时存在一个根本性的权衡:性能、成本和复杂性之间的三难困境。InfiniBand 提供顶级性能和原生可靠性,但成本更高。RoCE v2 在以太网上提供接近 InfiniBand 的性能,可能降低硬件成本,但增加了显著的配置复杂性。iWARP 在 TCP 上提供 RDMA,但性能较低。标准以太网成本效益高,但缺乏应对要求严苛工作负载的性能。没有单一的“最佳”解决方案;正确的选择需要根据具体需求和能力在这三个因素之间进行权衡。

下表概述了每种技术的应用适用性:

技术 主要用例 最适合 不太适合
InfiniBand HPC, AI/ML 训练, 大数据分析, 金融服务 (套利) 要求绝对最低延迟、最高带宽和原生无损保证的环境 对成本敏感的通用企业网络,缺乏专业 IT 知识的环境
RoCE v2 数据中心, 云服务, 存储网络, 实时分析, AI/ML 推理 利用现有以太网基础设施实现高性能的组织;成本与性能的平衡 如果没有广泛的配置专业知识,原生无损保证是不可协商的环境
iWARP NVMeoF, iSER, SMB Direct, NFS over RDMA, 测试/开发环境 需要在现有 TCP/IP 上实现 RDMA 的特定应用,且绝对峰值性能不是关键 大规模 HPC/AI 集群,延迟敏感的实时应用
标准以太网/TCP/IP 通用企业网络, 局域网, 互联网连接, 云基础设施 普遍、经济、灵活的通用网络 高性能计算、AI/ML 训练以及其他延迟敏感、CPU 密集型的工作负载

七、新兴高性能互连技术与未来趋势

在数据密集型工作负载和对更高效率需求的推动下,高性能网络领域在不断变化。除了已有的 RDMA 技术,新的互连技术和趋势正在塑造数据中心的未来。

A. Compute Express Link (CXL)

CXL 是一种构建在 PCIe 物理层上的现代互连技术,专为通用计算系统设计。其主要目标是在 CPU 和加速器(如 GPU 和 FPGA)之间实现快速、无缝的通信。

CXL 的关键特性包括高速数据传输、广泛的兼容性以及通过缓存一致性实现的高效内存共享。它支持三种设备类型(用于加速器、缓存一致性设备和内存扩展器)和灵活的拓扑。CXL/PCIe Gen5 提供 512 Gbps 的峰值吞吐量,延迟约为 500 纳秒。虽然 InfiniBand 的延迟更低(约 100 纳秒),但在缓存一致性至关重要的低延迟内存访问方面,CXL 更具优势。

一个重大进展是 2022 年 Gen-Z 和 CXL 联盟的合并,这使 CXL 成为这类以内存为中心的互连技术的唯一行业标准。

CXL 代表了从传统的节点到节点网络(如 RoCE 和 InfiniBand)向内存一致性和资源分解的转变。这意味着对于某些工作负载,CXL 可能会成为主要的互连技术,补充或减少对传统网络架构的需求。

B. NVLink

NVLink 是 NVIDIA 的专有高带宽、低延迟互连技术,专为其加速计算平台内的 GPU-to-GPU 和 GPU-to-CPU 直接通信而设计。

NVLink 是 NVIDIA AI 和 HPC 解决方案(如其 GB200 和 GB300 架构)的关键组成部分。它通过在 GPU 之间提供极快的数据传输,对于扩展 AI 模型训练至关重要。

NVLink 显示出垂直整合和专业化性能的趋势。其专有性质与 RoCE 或 InfiniBand 等开放标准形成对比。这种设计最大限度地提高了单一供应商硬件堆栈内的性能。当 InfiniBand 和 RoCE 处理节点间的通用网络时,NVLink 则优化了 GPU 系统内部之间的通信,创建了一个分层的互连架构,其中不同的技术服务于不同的需求。

C. 未来以太网速度

以太网已从 10 Mbps 发展到 400 Gbps,并且随着 800GbE 和 1.6TbE 标准的出现,发展仍在继续。这些更快的速度对于下一代应用(如量子计算、高级 AI 和沉浸式技术)至关重要。

以太网速度的持续提升直接惠及 RoCE。由于 RoCE 构建在以太网之上,它会自动从这些进步中获益,有助于其保持与 InfiniBand 的竞争力。云服务的增长已经在推动 200GbE 和 400GbE 的部署,800GbE 和 1.6TbE 也即将到来。

以太网和 RoCE 的持续相关性紧密相连。随着以太网速度的提升,RoCE 成为高性能数据中心更强大的竞争者,特别是对于那些希望利用现有以太网投资并避免专有生态系统的组织而言。

D. 分解式计算与光子学

  • 分解式计算: 这种新方法旨在通过将计算、存储和内存等资源与传统服务器解耦来提高数据中心效率。然后将这些资源重新组合成由先进网络连接的灵活资源池。一个关键结果是,曾经在服务器内部发生的通信现在跨越网络,极大地增加了负载,并使超低延迟变得至关重要。这一趋势强化了对 RoCE 和 InfiniBand 等高性能互连技术的需求,并推动了像 CXL 这样的新技术的发展。
  • 数据中心网络中的光子学: 硅光子学将光学元件集成到硅芯片上,实现了高速、低功耗的光学互连。与传统铜缆相比,该技术提供了更快的数据传输速率(超过 100 Gbps)、更低的延迟和更好的能效。它正成为满足数据中心日益增长的流量需求和实现下一代高速以太网的关键。

这些趋势之间的关系是共生的。分解式架构需要先进的网络,而像 RoCE、InfiniBand 和 CXL 这样的互连技术提供了这种网络。反过来,要为这些互连技术达到必要的速度,特别是对于未来的 800GbE 和 1.6TbE 标准,将依赖于硅光子学等技术。

八、建议与结论

选择高性能互连技术是一项关键的战略决策,必须与组织的具体需求、预算、基础设施和长期愿景保持一致。

  • 追求极致原始性能和关键任务 HPC/AI: InfiniBand 是明确的黄金标准。其原生 RDMA、基于信用的流控制和专门设计提供了最低的延迟和最高的吞t量,并保证了无损性能。对于预算和专业知识充足的组织,在每一微秒都至关重要的大规模集群中应选择 InfiniBand。
  • 追求高性能、成本效益和以太网集成: RoCE v2 是一个强大且日益流行的替代方案。它提供了比 TCP/IP 大幅的性能提升,并可通过利用现有以太网基础设施来接近 InfiniBand 的性能。对于希望在不进行彻底改造的情况下升级数据中心的组织来说,它是理想的选择。然而,这一选择需要承诺仔细配置和管理无损以太网架构。
  • 用于利基应用或遗留的 RDMA over TCP 环境: iWARP 在特定情况下可能适用,特别是在必须使用现有 TCP/IP 基础设施且峰值性能不是主要目标的情况下。然而,其较低的性能和较高的管理复杂性限制了其在现代高性能部署中的应用。
  • 用于通用网络: 对于没有极端性能需求的环境,标准以太网/TCP/IP 仍然是最普遍且最具成本效益的选择。其易用性和商品化硬件使其非常适合通用企业网络、局域网和标准云基础设施。
  • 考虑新兴技术以实现未来保障: 组织应关注 CXL 在以内存为中心和分解式架构中的发展,因为它通过优化资源池来补充传统网络架构。同样,NVLink 对于优化 NVIDIA GPU 密集型系统内的通信至关重要。这些技术表明了针对计算层次结构不同层的互连技术的多样化。此外,800GbE 和 1.6TbE 以太网的发展,以及光子学的进步,将继续使 RoCE 成为一个更强大的选择。

总之,高性能网络领域是复杂的,受到 AI、HPC 的需求以及向分解式计算转变的驱动。虽然 InfiniBand 在专业环境的绝对性能方面处于领先地位,但 RoCE v2 提供了一个强大而灵活的替代方案,将 RDMA 的优势与以太网的普遍性联系起来。CXL 和 NVLink 的出现表明了互连技术的战略性多样化,以优化不同的通信层。最佳解决方案将始终是性能要求、成本、现有基础设施和前瞻性愿景之间的战略平衡。

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注