Komplexní analýza vysoce výkonných propojovacích technologií: RoCE v2, InfiniBand, iWARP a nově vznikající alternativy pro moderní datová centra

V rubrikách Hardware
Save and Share:

I. Shrnutí pro management

Moderní datová centra musí podporovat náročné pracovní zátěže, jako je vysoce výkonné počítání (HPC), umělá inteligence/strojové učení (AI/ML) a analýza velkých dat. Tyto aplikace vyžadují ultranízkou latenci, vysokou šířku pásma a minimální využití CPU. Tradiční síťové protokoly jako TCP/IP nemohou tyto potřeby uspokojit kvůli své vysoké režii a latenci.

Klíčovou technologií, která umožňuje vysoce výkonné propojení, je Remote Direct Memory Access (RDMA). RDMA umožňuje počítačům v síti přenášet data přímo mezi svými paměťmi, aniž by zapojovaly své operační systémy nebo CPU (přenos z paměti do paměti). Tento proces dramaticky snižuje latenci a zátěž CPU.

  • InfiniBand je specializovaná, proprietární síťová struktura (fabric) navržená pro nejvyšší možný výkon a nativně bezztrátový provoz.
  • RoCE v2 (RDMA over Converged Ethernet) přenáší výhody RDMA na standardní Ethernet, nabízí routovatelnou a nákladově efektivnější variantu, ale pro dosažení bezztrátovosti vyžaduje specifické konfigurace.
  • iWARP je další řešení RDMA přes Ethernet založené na TCP, ale je obecně méně rozšířené a nabízí nižší výkon než RoCE v2.

Výběr správné propojovací technologie je strategické rozhodnutí, které závisí na výkonnostních potřebách, rozpočtu, stávající infrastruktuře a cílech škálovatelnosti. Tato zpráva analyzuje tyto technologie, porovnává je se standardním Ethernetem/TCP/IP a zkoumá nové alternativy jako CXL a NVLink, aby pomohla s tímto kritickým rozhodnutím.

II. Úvod do vysoce výkonných sítí a RDMA

Dnešní digitální svět se vyznačuje exponenciálním růstem datově náročných aplikací, jako je vysoce výkonné počítání (HPC), umělá inteligence/strojové učení (AI/ML) a analýza velkých dat. Tyto pracovní zátěže musí přesouvat obrovské objemy dat rychle a efektivně mezi výpočetními uzly a úložišti. Například AI aplikace jsou vysoce citlivé na integritu dat a vyžadují bezztrátové sítě, kde jediná ztracená zpráva může zničit celý trénovací cyklus. Pro efektivní zpracování dat je pro tyto aplikace nezbytný také provoz s vysokou šířkou pásma.

Omezení tradičního TCP/IP Ethernetu pro vysoce výkonné aplikace

I když je tradiční TCP/IP Ethernet spolehlivý pro běžné síťové použití, má pro vysoce výkonné aplikace zásadní omezení:

  • Vysoká latence a režie CPU: Architektura TCP/IP posílá data přes několik softwarových vrstev v jádře operačního systému, což vyžaduje značné zapojení CPU. Tento proces přidává značnou latenci (typicky desítky mikrosekund) a silně zatěžuje CPU. Pro aplikace citlivé na latenci se to stává hlavním úzkým hrdlem, protože CPU tráví čas správou síťového provozu místo prováděním aplikace. Tato „daň na CPU“ v podobě přepínání kontextu a kopírování dat je hlavním důvodem pro přijetí technologií RDMA, které přenášejí zpracování sítě mimo CPU a uvolňují jej pro aplikační úkoly.
  • Omezení propustnosti: Efektivní propustnost TCP omezuje několik faktorů, včetně velikosti přenosového okna, velikosti segmentu a ztráty paketů. Standardní velikost okna TCP (často omezená na 65 535 bajtů) může bránit plnému využití spojů s vysokou šířkou pásma, zejména v sítích s vyšší latencí. Navíc hlavní mechanismus spolehlivosti TCP – opakovaný přenos paketů – způsobuje zpoždění a spotřebovává dodatečnou šířku pásma, což snižuje výkon v přetížených nebo ztrátových sítích.
  • Problémy se škálovatelností: Ačkoli se TCP/IP dobře škáluje pro velké sítě, jeho návrh upřednostňuje obecnou spolehlivost před hrubým výkonem. To jej činí méně efektivním pro scénáře vyžadující extrémní propustnost a minimální latenci, jako jsou rozsáhlé HPC clustery nebo inferenční AI v reálném čase.

Základy Remote Direct Memory Access (RDMA) a jeho hlavní výhody

Technologie Remote Direct Memory Access (RDMA) byla vyvinuta s cílem překonat omezení TCP/IP ve vysoce výkonných prostředích. Její hlavní výhody plynou z obcházení CPU a operačního systému během přenosu dat:

  • Přímý přístup do paměti (Zero-Copy): RDMA přenáší data přímo z paměti jednoho počítače do paměti druhého, aniž by zapojovala CPU nebo OS kteréhokoli ze systémů. Tento přístup „zero-copy“ (nulové kopírování) eliminuje mezilehlé datové buffery a přepínání kontextu, které jsou hlavními zdroji režie v tradičních sítích.
  • Snížená latence a zátěž CPU: Obcházením CPU a OS RDMA drasticky snižuje komunikační latenci a uvolňuje cykly CPU. To přímo vede k rychlejším výpočtům a lepšímu zpracování dat v reálném čase. Například latence aplikace může klesnout z přibližně 50 mikrosekund s TCP/IP na pouhých 2–5 mikrosekund s RDMA.
  • Vyšší využití šířky pásma: Efektivní datová cesta a snížená režie RDMA umožňují aplikacím lépe využívat dostupnou šířku pásma sítě, což vede k vyšší efektivní propustnosti.
  • Klíčové implementace: Hlavními technologiemi RDMA, které se dnes používají, jsou InfiniBand, RoCE (verze 1 a 2) a iWARP.

III. RoCE v2: RDMA přes konvergovaný Ethernet

RoCE v2 je významným krokem vpřed ve vysoce výkonných sítích, který rozšiřuje výhody RDMA do široce používaného ekosystému Ethernetu.

A. Architektonické principy

  • Evoluce z RoCE v1: RoCE v1 byl protokol vrstvy 2 (Ethertype 0x8915), což ho omezovalo na jedinou broadcastovou doménu Ethernetu a limitovalo jeho škálovatelnost. RoCE v2 tento problém řeší tím, že pracuje na internetové vrstvě. Zapouzdřuje RDMA provoz do UDP/IP paketů (s použitím UDP cílového portu 4791), což ho činí routovatelným napříč sítěmi IP vrstvy 3. Tato routovatelnost je kritickým vylepšením, které umožňuje použití RoCE v2 ve velkých datových centrech a cloudových prostředích.
  • Integrace RDMA přes Ethernet: RoCE poskytuje metodu pro provádění RDMA přes standardní ethernetovou síť. Efektivně nahrazuje síťovou vrstvu InfiniBandu hlavičkami IP a UDP, přičemž zachovává klíčovou transportní vrstvu InfiniBandu a protokol RDMA. Tento design umožňuje RoCE využívat stávající ethernetovou infrastrukturu.
  • Formát paketu: Paket RoCE v2 obsahuje hlavičku IP a UDP, které zapouzdřují transportní protokol RDMA. Ačkoli UDP nezaručuje pořadí paketů, standard RoCE v2 vyžaduje, aby pakety se stejným zdrojovým portem a cílovou adresou nebyly přeuspořádány.
  • Kompromis „toho nejlepšího z obou světů“: Design RoCE v2 je strategickým kompromisem, jehož cílem je poskytnout vysoký výkon RDMA na flexibilní, nákladově efektivní a všudypřítomné platformě Ethernetu. I když tento přístup nabízí širokou kompatibilitu, vytváří klíčovou výzvu: zajistit bezztrátový výkon, který RDMA potřebuje, přes ethernetovou síť, která je ze své podstaty ztrátová.

B. Výkonnostní profil

  • Latence: RoCE Host Channel Adapters (HCA) mohou dosáhnout velmi nízkých latencí, až 1,3 mikrosekundy. Na aplikační úrovni snižuje RoCE latenci na přibližně 5 mikrosekund, což je obrovské zlepšení oproti 50 mikrosekundám typickým pro TCP/IP. Ačkoli InfiniBand nabízí o něco nižší nativní latenci, výkon RoCE je vynikající pro aplikace v reálném čase.
  • Šířka pásma: RoCE v2 podporuje vysokou šířku pásma s rychlostmi až 400 Gb/s na port.
  • Odlehčení CPU (CPU Offload): Stejně jako ostatní protokoly RDMA, i RoCE obchází CPU při přenosu dat. Toto odlehčení uvolňuje cenné zdroje CPU pro výpočetně náročné úkoly místo zpracování sítě.
  • Bezztrátový výkon: Aby se výkon RoCE vyrovnal výkonu InfiniBandu, závisí na bezztrátové ethernetové síti. Toho se obvykle dosahuje implementací funkcí Data Center Bridging (DCB), zejména Priority Flow Control (PFC) a Explicit Congestion Notification (ECN).

C. Infrastruktura a správa

  • Hardwarové/softwarové požadavky: RoCE pracuje se standardním ethernetovým hardwarem, jako jsou switche a kabely, což organizacím umožňuje využívat stávající infrastrukturu. Vyžaduje však koncové body s Host Channel Adapters (HCA) podporujícími RoCE. Softwarová podpora je zralá, s implementacemi v Mellanox OFED 2.3+ a integrací do jádra Linuxu v4.5+.
  • Konfigurace bezztrátové sítě: Ačkoli RoCE používá standardní Ethernet, vytvoření bezztrátové sítě DCB může být složitější než nastavení sítě InfiniBand. Každá komponenta, od koncových bodů po switche, musí být pečlivě nakonfigurována. To zahrnuje nastavení Priority Flow Control (PFC), Enhanced Transmission Selection (ETS) a mechanismů pro oznamování přetížení. Aby to fungovalo napříč sítěmi vrstvy 3, musí být tyto bezztrátové vlastnosti zachovány napříč routery, často mapováním nastavení priority vrstvy 2 na nastavení QoS DSCP vrstvy 3.
  • Aspekty správy: RoCE lze spravovat standardními ethernetovými nástroji. Zajištění konzistentního bezztrátového výkonu a správa přetížení ve velkých nasazeních RoCE v2 však může být náročná a vyžaduje specializované znalosti.
  • Skryté náklady „nákladové efektivity“: RoCE je často označován jako „nákladově efektivní“, protože může využívat stávající ethernetovou infrastrukturu, ale to je zjednodušení. Dosažení výkonu srovnatelného s InfiniBandem vyžaduje dokonale nakonfigurovanou bezztrátovou ethernetovou síť. Složitost nastavení funkcí Data Center Bridging (DCB), jako jsou PFC a ECN, může být mnohem vyšší než konfigurace sítě InfiniBand. Tato složitost vede k vyšším provozním nákladům na návrh sítě, řešení problémů a správu a může vyžadovat dražší ethernetové switche. V důsledku toho mohou být počáteční úspory na hardwaru u RoCE vyváženy těmito vyššími provozními náklady. Pro přesné srovnání je nezbytná důkladná analýza celkových nákladů na vlastnictví (TCO).

D. Klíčové aplikace

RoCE v2 je vynikajícím řešením pro mnoho datových center a podnikových aplikací. Je zvláště vhodný pro prostředí, která potřebují ultranízkou latenci a vysokou propustnost, jako jsou AI zátěže, vysokofrekvenční obchodování a analýzy v reálném čase. Zlepšuje také výkon aplikací, které silně spoléhají na databáze nebo souborové I/O. Navíc RoCE v2 pomáhá s kontinuitou podnikání a obnovou po havárii tím, že umožňuje rychlou a efektivní replikaci dat. Jeho široké využití v trénovacích clusterech pro AI zdůrazňuje jeho význam v moderním výpočetním světě.

IV. InfiniBand: Specializovaná vysoce výkonná síťová struktura

InfiniBand je špičková vysoce výkonná propojovací technologie, od základu navržená tak, aby poskytovala bezkonkurenční rychlost, minimální latenci a vysokou spolehlivost pro náročná výpočetní prostředí.

A. Architektonické principy

  • Nativní RDMA: InfiniBand byl vytvořen s RDMA integrovaným do celého svého protokolu, od fyzické vrstvy nahoru. Tento návrh od základu zajišťuje, že operace RDMA jsou vysoce efektivní a vytvářejí přímé a chráněné datové kanály mezi uzly bez zapojení CPU.
  • Topologie přepínané sítě (Switched Fabric): InfiniBand používá topologii přepínané sítě pro přímé spojení bod-bod mezi zařízeními. Architektura zahrnuje Host Channel Adapters (HCA) na procesorech a Target Channel Adapters (TCA) na periferiích, což umožňuje efektivní komunikaci.
  • Řízení toku na bázi kreditů (Credit-Based Flow Control): Klíčovou vlastností InfiniBandu je řízení toku na bázi kreditů. Tento algoritmus na hardwarové úrovni zaručuje bezztrátovou komunikaci tím, že zajišťuje, aby odesílatel posílal data pouze tehdy, má-li přijímač dostatek místa v bufferu (kreditů) k jejich přijetí. Tato nativní spolehlivost zabraňuje ztrátě paketů a odlišuje InfiniBand od technologií, které pro dosažení bezztrátovosti potřebují konfigurace na vyšších vrstvách.
  • Proprietární standardy: InfiniBand se řídí proprietárními standardy definovanými asociací InfiniBand Trade Association (IBTA), založenou v roce 1999. Ekosystému silně dominuje společnost NVIDIA (prostřednictvím akvizice společnosti Mellanox), přední výrobce adaptérů a switchů InfiniBand.

B. Výkonnostní profil

  • Ultranízká latence: InfiniBand konzistentně nabízí nejnižší latenci. Latence adaptérů může být pouhých 0,5 mikrosekundy a latence mezi porty switche je kolem 100 nanosekund – výrazně nižší než 230 nanosekund srovnatelných ethernetových switchů. Na aplikační úrovni může InfiniBand dosáhnout latence pouhých 2 mikrosekund, ve srovnání s 50 mikrosekundami u TCP/IP.
  • Schopnosti s vysokou propustností: InfiniBand podporuje extrémně vysoké přenosové rychlosti. Moderní verze jako HDR a NDR nabízejí až 200 Gb/s a 400 Gb/s na linku. Agregované linky mohou dosáhnout ještě vyšší propustnosti, až 800 Gb/s (NDR) a dokonce 1,6 Tb/s (XDR).
  • Efektivita CPU: Klíčovou silou InfiniBandu je jeho schopnost poskytovat ultranízkou latenci a extrémně vysokou šířku pásma s téměř nulovým využitím CPU. Toto odlehčení síťového zpracování je kritickou výhodou pro výpočetně náročné zátěže.
  • Výkon z principu vs. výkon z konfigurace: InfiniBand a RoCE mají zásadní rozdíl ve svém přístupu. InfiniBand byl od základu navržen pro RDMA, s fyzickými a transportními vrstvami navrženými pro spolehlivost na hardwarové úrovni, včetně nativního algoritmu na bázi kreditů pro bezztrátovou komunikaci. Na rozdíl od toho RoCE běží na standardním Ethernetu a spoléhá na konfiguraci funkcí jako Priority Flow Control (PFC) a Explicit Congestion Notification (ECN) k vytvoření bezztrátové sítě. To znamená, že InfiniBand poskytuje zaručený vysoký výkon hned po vybalení, zatímco výkon RoCE závisí na kvalitě podkladové konfigurace Ethernetu.

C. Infrastruktura a správa

  • Specializovaný hardware: InfiniBand vyžaduje specializovaný hardware, včetně dedikovaných Host Channel Adapters (HCA), switchů, routerů a proprietárních kabelů. To obvykle vede k vyšší počáteční investici ve srovnání s řešeními založenými na Ethernetu.
  • Centralizovaná správa: Sítě InfiniBand jsou spravovány centrálním Subnet Managerem (SM), který vypočítává a distribuuje směrovací tabulky a spravuje konfigurace, jako jsou partitiony a Quality of Service (QoS). Tento centralizovaný přístup může po počátečním nastavení zjednodušit správu ve velkých clusterech.
  • Specializované znalosti: Nasazení a údržba sítí InfiniBand obvykle vyžaduje specializované znalosti, což může zvýšit provozní náklady a vytvořit strmější křivku učení pro IT personál.
  • Ekosystém: Ekosystém InfiniBand je zralý, ale dominuje mu NVIDIA/Mellanox.

D. Klíčové aplikace

InfiniBand je průmyslovým standardem pro prostředí vysoce výkonného počítání (HPC) a je nejrychleji rostoucí propojovací technologií pro tyto aplikace. Je to primární technologie doporučovaná IBTA. Jeho ultranízká latence a vysoká šířka pásma jsou nezbytné pro náročné zátěže, jako je trénování rozsáhlých modelů AI/ML, analýza velkých dat a masivní databázové operace. Je také klíčový pro velké simulace (např. předpověď počasí) a vysokofrekvenční finanční služby, kde jsou rychlost a integrita dat kritické. K červnu 2022 používalo InfiniBand 62 % ze 100 nejvýkonnějších superpočítačů na světě.

V. iWARP: RDMA přes standardní TCP/IP

iWARP (Internet Wide Area RDMA Protocol) je další metodou pro implementaci RDMA, která je pozoruhodná svým použitím standardní sady protokolů TCP/IP.

A. Architektonické principy

  • RDMA přes TCP/IP: iWARP je protokol, který implementuje RDMA přes standardní IP sítě. Na rozdíl od RoCE, který používá UDP, je iWARP postaven na spolehlivých transportních protokolech jako TCP a SCTP.
  • Klíčové komponenty: Provoz iWARP závisí na několika komponentách. Protokol Direct Data Placement (DDP) umožňuje přenos „zero-copy“ umístěním dat přímo do paměti aplikace. Protokol Remote Direct Memory Access (RDMAP) poskytuje služby pro operace čtení a zápisu RDMA. Pro umožnění DDP přes TCP je nutná specifická adaptační vrstva, Marker PDU Aligned (MPA) framing.
  • Spolehlivost: Unikátní vlastností iWARP je, že jeho spolehlivost je zajištěna podkladovým protokolem TCP. To se liší od RoCE v2, který používá UDP a pro spolehlivost vyžaduje externí mechanismy jako Data Center Bridging (DCB). V důsledku toho iWARP podporuje pouze spolehlivou, spojenou komunikaci.

B. Výkonnostní profil

  • Srovnávací latence a propustnost: Ačkoli má iWARP nižší latenci než tradiční TCP/IP, jeho výkon je obecně horší než u RoCE. V roce 2011 byla nejnižší latence iWARP HCA 3 mikrosekundy, zatímco RoCE HCA dosahovaly 1,3 mikrosekundy. Srovnávací testy konzistentně ukazují, že RoCE doručuje zprávy mnohem rychleji než iWARP, s propustností více než 2x vyšší při 40GbE a 5x vyšší při 10GbE.
  • Odlehčení CPU (CPU Offload): Stejně jako ostatní RDMA protokoly, iWARP minimalizuje zátěž CPU tím, že umožňuje přímé přenosy paměti. Může používat TCP Offload Engines (TOE) s RDMA hardwarem k dosažení výsledků „zero-copy“ a dalšímu snížení zapojení CPU.

C. Infrastruktura a správa

  • Kompatibilita se standardním Ethernetem: Hlavní výhodou iWARP je jeho schopnost běžet na standardní ethernetové infrastruktuře s minimálními změnami stávající sítě. To organizacím umožňuje využít jejich stávající investice.
  • Hardwarové požadavky: Navzdory kompatibilitě se standardními ethernetovými switchi iWARP stále vyžaduje na koncových bodech síťové karty podporující iWARP.
  • Aspekty integrace: iWARP je integrován do hlavních operačních systémů, jako je Microsoft Windows Server a moderní linuxová jádra. To podporuje aplikace jako SMB Direct, iSCSI Extensions for RDMA (iSER) a Network File System over RDMA (NFS over RDMA).
  • Problémy se správou: Správa provozu iWARP může být obtížná. Sdílí prostor portů TCP, což komplikuje správu toků a ztěžuje identifikaci RDMA provozu. Celkově je iWARP považován za obtížněji spravovatelný než RoCE.

D. Relevantnost na trhu

  • Omezené přijetí: iWARP je „neobvyklá“ nebo „méně často používaná“ implementace RDMA ve srovnání s InfiniBand a RoCE v2. Jeho řešení měla „omezený úspěch“ kvůli problémům s implementací a nasazením.
  • Paradox spoléhání na TCP: Volba návrhu iWARP vrstvit RDMA přes TCP poskytuje vestavěnou spolehlivost a kompatibilitu, ale paradoxně mu brání plně dosáhnout klíčových výhod RDMA. Vrozená režie protokolu TCP, i s hardwarovým odlehčením, zdá se, brání iWARP dosáhnout ultranízké latence a vysoké propustnosti jako u InfiniBandu nebo RoCE. Tento kompromis ve výkonu vedl k jeho omezenému přijetí na trhu.

VI. Srovnávací analýza: RoCE v2 vs. InfiniBand vs. iWARP vs. standardní Ethernet

Podrobné srovnání výkonu, infrastruktury a provozních metrik je klíčem k výběru správné vysoce výkonné propojovací technologie.

A. Srovnávací testy výkonu (Benchmarks)

Výkon těchto propojovacích technologií se výrazně liší, zejména v oblasti latence, šířky pásma a využití CPU.

  • Latence:
    • InfiniBand: Nabízí nejnižší latenci. Latence mezi porty switche je kolem 100 nanosekund, zatímco latence adaptéru je pouhých 0,5 až 1,3 mikrosekundy. Latence na aplikační úrovni může být pouhých 2 mikrosekundy.
    • RoCE v2: Poskytuje ultranízkou latenci. Latence ethernetového switche je kolem 230 nanosekund, zatímco latence HCA může být pouhých 1,3 mikrosekundy. Latence na aplikační úrovni je typicky kolem 5 mikrosekund.
    • iWARP: Má vyšší latenci než RoCE, s latencí HCA hlášenou kolem 3 mikrosekund (údaje z roku 2011). Konzistentně dosahuje horších výsledků než RoCE.
    • Standardní TCP/IP: Má nejvyšší latenci, s jednosměrnou latencí od 10 do 55 milisekund. Latence na aplikační úrovni je typicky kolem 50 mikrosekund.
  • Šířka pásma:
    • InfiniBand: Podporuje velmi vysokou šířku pásma. Moderní verze jako NDR nabízejí až 400 Gb/s na port a XDR dosahuje až 800 Gb/s. Budoucí GDR se předpokládá, že dosáhne 1,6 Tb/s.
    • RoCE v2: Schopen vysoké šířky pásma, podporuje až 400 Gb/s na port.
    • iWARP: Obecně má nižší propustnost než RoCE.
    • Standardní TCP/IP: Propustnost je často omezena režií protokolu a opakovanými přenosy, což ztěžuje efektivní využití spojů s vysokou šířkou pásma.
  • Odlehčení CPU (CPU Offload):
    • InfiniBand, RoCE v2, iWARP: Všechny tři technologie RDMA odlehčují značnou část práce CPU obcházením operačního systému, čímž uvolňují zdroje CPU pro jiné úkoly.
    • Standardní TCP/IP: Způsobuje vysokou zátěž CPU, protože jádro je silně zapojeno do zpracování dat.
  • Bezztrátový mechanismus:
    • InfiniBand: Vyznačuje se nativním řízením toku na bázi kreditů na hardwarové úrovni, což zaručuje bezztrátovou komunikaci.
    • RoCE v2: Spoléhá na bezztrátovou konfiguraci Ethernetu, využívající funkce Data Center Bridging (DCB) jako PFC a ECN. Má také mechanismus spolehlivého doručení end-to-end s hardwarovými opakovanými přenosy.
    • iWARP: Využívá vestavěnou spolehlivost protokolu TCP pro integritu dat.
    • Standardní TCP/IP: Používá model doručení „best-effort“, spoléhá na opakované přenosy na vyšších vrstvách pro zajištění spolehlivosti, což přidává latenci.

Následující tabulka shrnuje výkonnostní charakteristiky:

Vlastnost InfiniBand RoCE v2 iWARP Standardní Ethernet/TCP/IP
Klíčová technologie Nativní RDMA RDMA přes Ethernet (UDP/IP) RDMA přes Ethernet (TCP/IP) Tradiční vrstvený protokol
Typická latence aplikace (µs) 2 5 >3 (2011 HCA) 50
Latence mezi porty switche (ns) 100 230 N/A (spoléhá na Ethernet) Typicky vyšší, variabilní
Max. šířka pásma (Gb/s na port/linku) 400 (NDR), 800 (XDR), 1,6T (GDR) 400 Obecně nižší než RoCE 400+ (ale omezeno režií protokolu)
Režie CPU Téměř nulová Velmi nízká Nízká Vysoká
Bezztrátový mechanismus Nativní řízení toku na bázi kreditů Vyžaduje bezztrátový Ethernet (PFC, ECN) Spolehlivý transport TCP Best-Effort, spoléhá na opakované přenosy
Routovatelnost (L2/L3) L3 (přes Subnet Manager) L3 (Routovatelné RoCE) L3 L3 (Standardní IP směrování)

B. Infrastruktura a ekosystém

  • Hardwarové závislosti:
    • InfiniBand: Vyžaduje kompletní sadu specializovaného hardwaru, včetně InfiniBand HCA, switchů a proprietárních kabelů.
    • RoCE v2: Vyžaduje HCA podporující RoCE, ale funguje na standardních ethernetových switchích a kabelech, což umožňuje integraci se stávajícími sítěmi.
    • iWARP: Vyžaduje síťové karty podporující iWARP, ale může používat standardní ethernetové switche.
    • Standardní Ethernet: Používá široce dostupné, komoditní ethernetové NIC a switche.
  • Závislost na dodavateli (Vendor Lock-in):
    • InfiniBand: Ekosystém je omezený a dominuje mu Mellanox (NVIDIA), což může vyvolávat obavy ze závislosti na dodavateli.
    • RoCE v2: Těží z velkého a konkurenčního ekosystému Ethernetu s více dodavateli. Někteří nabízejí „Universal RDMA“ NIC podporující jak RoCE, tak iWARP, což snižuje závislost.
    • iWARP: Rovněž těží z širokého ekosystému Ethernetu s podporou od dodavatelů jako Intel a Chelsio.
  • Interoperabilita:
    • InfiniBand: Jako proprietární standard musí všechny komponenty dodržovat specifikace IBTA, aby byla zajištěna jejich vzájemná funkčnost.
    • RoCE v2: Jeho základ na standardním Ethernetu umožňuje širší interoperabilitu a snazší integraci se stávajícími sítěmi.
    • iWARP: Založen na standardních IETF RFC pro TCP/IP, což zajišťuje vysokou kompatibilitu v rámci standardních IP sítí.

C. Nákladová efektivita

  • Počáteční investice:
    • InfiniBand: Obvykle vyžaduje vyšší počáteční investici kvůli specializovanému hardwaru a licencování. Pro velké AI clustery mohou být switche InfiniBand výrazně dražší než switche RoCE.
    • RoCE v2: Často je nákladově efektivnější volbou, protože se může integrovat se stávajícím Ethernetem, což snižuje náklady na nový hardware. Úspory na switchích pro velké AI clustery mohou být značné (49 % až 70 % ve srovnání s InfiniBandem).
    • iWARP: Používá standardní ethernetové switche, ale vyžaduje specializované adaptéry, což může stále představovat významný náklad.
    • Standardní Ethernet: Obecně nejlevnější varianta díky komoditnímu hardwaru.
  • Celkové náklady na vlastnictví (TCO):
    • InfiniBand: Má tendenci mít vyšší TCO kvůli specializovanému hardwaru, údržbě a potřebě školení personálu na proprietární technologii.
    • RoCE v2: Může mít nižší TCO, ale to je podmíněno. Složitost konfigurace a údržby bezztrátové ethernetové sítě může výrazně zvýšit provozní náklady. Zatímco počáteční náklady na hardware mohou být nižší, specializované znalosti a úsilí potřebné pro návrh, řešení problémů a údržbu mohou tyto úspory vyrovnat. „Nákladová efektivita“ tedy závisí jak na ceně hardwaru, tak na odbornosti a zátěži správy v organizaci.
    • iWARP: Problémy s integrací a správou mohou ovlivnit jeho celkové TCO.

Následující tabulka poskytuje srovnávací přehled infrastruktury a nákladových aspektů:

Vlastnost InfiniBand RoCE v2 iWARP Standardní Ethernet/TCP/IP
Požadovaný síťový hardware Dedikované IB NIC, IB Switche, IB Kabely NIC s podporou RoCE, standardní Ethernet switche/kabely NIC s podporou iWARP, standardní Ethernet switche/kabely Standardní Ethernet NIC, Ethernet switche/kabely
Kompatibilita sítě Proprietární (IBTA Standard) Standardní Ethernet (IEEE) Standardní Ethernet (IETF RFC) Standardní Ethernet (IEEE)
Složitost správy Obtížná (specializovaný SM) Obtížná (konfigurace bezztrátového Ethernetu) Obtížnější než RoCE Snadná
Počáteční cena hardwaru (relativní) Vysoká Střední (využívá stávající) Střední (specializované NIC) Nízká
Celkové náklady na vlastnictví (relativní) Vyšší Nižší (podmíněno správou) Variabilní (problémy s integrací) Nejnižší
Ekosystém dodavatelů Omezený (dominuje NVIDIA/Mellanox) Široký (více dodavatelů Ethernetu) Široký (více dodavatelů Ethernetu) Velmi široký

D. Škálovatelnost a flexibilita

  • Schopnosti směrování:
    • InfiniBand: Používá přepínanou síťovou strukturu se směrováním centrálně řízeným Subnet Managerem (SM). Je vysoce škálovatelný a podporuje clustery s více než 100 000 uzly.
    • RoCE v2: Jeho zapouzdření UDP/IP umožňuje směrování přes sítě IP vrstvy 3, což ho činí škálovatelným napříč velkými sítěmi a cloudovými prostředími. Podporuje také ECMP pro efektivní vyvažování zátěže.
    • iWARP: Je směrovatelný přes IP sítě.
    • Standardní Ethernet: Vysoce škálovatelný a flexibilní, ale pro dosažení efektivity na úrovni HPC může vyžadovat pokročilé konfigurace, jako jsou architektury spine-leaf.
  • Síťové topologie:
    • InfiniBand: Optimalizován pro HPC/AI clustery, podporuje vysoce výkonné topologie jako Fat Tree, Dragonfly+ a vícerozměrný Torus.
    • RoCE v2: Jeho směrování založené na IP ho činí přizpůsobitelným téměř jakékoli síťové topologii.
    • Standardní Ethernet: Podporuje širokou škálu topologií, včetně hvězdicové a mesh.

E. Spolehlivost a řízení přetížení

  • Spolehlivost:
    • InfiniBand: Poskytuje nativní spolehlivost na hardwarové úrovni se svým řízením toku na bázi kreditů, což zaručuje bezztrátovou komunikaci.
    • RoCE v2: Spoléhá na bezztrátovou konfiguraci Ethernetu s použitím PFC a ETS. Zahrnuje také mechanismus spolehlivého doručení end-to-end s hardwarovým opakovaným přenosem paketů.
    • iWARP: Těží z vrozené spolehlivosti TCP, která poskytuje opravu chyb a opakované přenosy.
    • Standardní TCP/IP: Soustředí se na spolehlivost prostřednictvím opakovaných přenosů, což může přidat značnou latenci a snížit propustnost.
  • Řízení přetížení:
    • InfiniBand: Definuje vlastní mechanismy řízení přetížení založené na značení FECN/BECN.
    • RoCE v2: Implementuje protokol pro řízení přetížení s využitím IP ECN bitů a Congestion Notification Packets (CNP). Používají se také průmyslové postupy jako DCQCN.
    • iWARP: Spoléhá na zavedené algoritmy pro řízení přetížení TCP.

F. Vhodnost pro aplikace

  • InfiniBand: Ideální volba pro prostředí vyžadující nejvyšší propustnost dat a nejnižší latenci. To zahrnuje vědecký výzkum, finanční modelování, rozsáhlé HPC clustery a nejnáročnější tréninkové zátěže AI/ML.
  • RoCE v2: Preferován podniky, které chtějí využít svou stávající ethernetovou infrastrukturu a zároveň potřebují vysoký výkon. Je dobře vhodný pro úložné sítě, analýzy v reálném čase a cloudové služby, nabízí rovnováhu mezi výkonem a náklady.
  • iWARP: Může být zvažován pro specializované aplikace, kde je stávající infrastruktura TCP/IP striktním požadavkem a ultranízká latence není nejvyšší prioritou. Je vhodný pro aplikace jako NVMeoF, iSER, SMB Direct a NFS over RDMA nebo jako levná varianta pro testovací prostředí.
  • Standardní Ethernet/TCP/IP: Zůstává nejlepší volbou pro všeobecné síťové použití, jako jsou podnikové LAN sítě a cloudová infrastruktura, kde extrémní výkon HPC/AI není hlavním cílem.
  • Trilema výkon-náklady-složitost: Tato analýza odhaluje zásadní kompromis při výběru propojovací technologie: trilema mezi výkonem, náklady a složitostí. InfiniBand nabízí špičkový výkon a nativní spolehlivost, ale za vyšší cenu. RoCE v2 poskytuje výkon blízký InfiniBandu na Ethernetu, což potenciálně snižuje náklady na hardware, ale přidává značnou složitost konfigurace. iWARP nabízí RDMA přes TCP, ale s nižším výkonem. Standardní Ethernet je nákladově efektivní, ale postrádá výkon pro náročné zátěže. Neexistuje jediné „nejlepší“ řešení; správná volba vyžaduje vyvážení těchto tří faktorů na základě specifických potřeb a schopností.

Následující tabulka popisuje vhodnost aplikací pro každou technologii:

Technologie Primární případy použití Nejvhodnější pro Méně vhodné pro
InfiniBand HPC, trénování AI/ML, analýza velkých dat, finanční služby (arbitráž) Prostředí vyžadující absolutně nejnižší latenci, nejvyšší šířku pásma a nativní bezztrátové záruky Cenově citlivé obecné podnikové sítě, prostředí bez specializovaných IT znalostí
RoCE v2 Datová centra, cloudové služby, úložné sítě, analýzy v reálném čase, inference AI/ML Organizace využívající stávající ethernetovou infrastrukturu pro vysoký výkon; rovnováha mezi náklady a výkonem Prostředí, kde jsou nativní bezztrátové záruky bez rozsáhlých konfiguračních znalostí nekompromisní
iWARP NVMeoF, iSER, SMB Direct, NFS over RDMA, testovací/vývojová prostředí Specifické aplikace vyžadující RDMA přes stávající TCP/IP, kde absolutní špičkový výkon není kritický Rozsáhlé HPC/AI clustery, aplikace citlivé na latenci v reálném čase
Standardní Ethernet/TCP/IP Obecné podnikové sítě, LAN, připojení k internetu, cloudová infrastruktura Všudypřítomné, nákladově efektivní a flexibilní obecné síťové použití Vysoce výkonné počítání, trénování AI/ML a další zátěže citlivé na latenci a náročné na CPU

VII. Nové vysoce výkonné propojovací technologie a budoucí trendy

Krajina vysoce výkonných sítí se neustále mění, poháněná datově náročnými zátěžemi a potřebou vyšší efektivity. Kromě zavedených technologií RDMA formují budoucnost datových center nové propojovací technologie a trendy.

A. Compute Express Link (CXL)

CXL je moderní propojovací technologie postavená na fyzické vrstvě PCIe, navržená pro obecné výpočetní systémy. Jejím hlavním cílem je umožnit rychlou a bezproblémovou komunikaci mezi CPU a akcelerátory, jako jsou GPU a FPGA.

Klíčové vlastnosti CXL zahrnují vysokorychlostní přenos dat, širokou kompatibilitu a efektivní sdílení paměti prostřednictvím koherence mezipaměti (Cache Coherency). Podporuje tři typy zařízení (pro akcelerátory, zařízení s koherentní mezipamětí a expandéry paměti) a flexibilní topologie. CXL/PCIe Gen5 nabízí špičkovou propustnost 512 Gb/s s latencí kolem 500 nanosekund. Zatímco InfiniBand má nižší latenci (kolem 100 nanosekund), CXL je lepší pro přístup k paměti s nízkou latencí, kde je koherence mezipaměti kritická.

Významným vývojem bylo sloučení konsorcií Gen-Z a CXL v roce 2022, což staví CXL do pozice jediného průmyslového standardu pro tuto třídu propojovacích technologií zaměřených na paměť.

CXL představuje posun od tradičních sítí mezi uzly (jako RoCE a InfiniBand) směrem ke koherenci paměti a disagregaci zdrojů. To znamená, že pro určité pracovní zátěže se CXL může stát primární propojovací technologií, která doplňuje nebo snižuje potřebu tradičních síťových struktur.

B. NVLink

NVLink je proprietární propojovací technologie společnosti NVIDIA s vysokou šířkou pásma a nízkou latencí, navržená pro přímou komunikaci mezi GPU a mezi GPU a CPU v rámci jejích akcelerovaných výpočetních platforem.

NVLink je klíčovou součástí řešení NVIDIA pro AI a HPC, jako jsou její architektury GB200 a GB300. Je klíčový pro škálování trénování AI modelů tím, že poskytuje extrémně rychlé přenosy dat mezi GPU.

NVLink ukazuje trend směrem k vertikální integraci a specializovanému výkonu. Jeho proprietární povaha je v kontrastu s otevřenými standardy jako RoCE nebo InfiniBand. Tento design maximalizuje výkon v rámci hardwarového balíku jednoho dodavatele. Zatímco InfiniBand a RoCE se starají o obecné síťové propojení mezi uzly, NVLink optimalizuje komunikaci uvnitř a mezi systémy GPU, čímž vytváří vrstvenou architekturu propojení, kde různé technologie slouží různým potřebám.

C. Budoucí rychlosti Ethernetu

Ethernet se vyvinul z 10 Mb/s na 400 Gb/s a vývoj pokračuje se standardy 800GbE a 1,6TbE na obzoru. Tyto vyšší rychlosti budou nezbytné pro aplikace nové generace, jako je kvantové počítání, pokročilá AI a pohlcující technologie.

Neustálé zvyšování rychlosti Ethernetu přímo prospívá RoCE. Protože je RoCE postaveno na Ethernetu, automaticky těží z těchto pokroků, což mu pomáhá zůstat konkurenceschopným vůči InfiniBandu. Růst cloudových služeb již tlačí na nasazení 200GbE a 400GbE, přičemž 800GbE a 1,6TbE přijdou jako další.

Trvalá relevance Ethernetu a RoCE jsou úzce propojeny. Jak rychlosti Ethernetu postupují, RoCE se stává ještě silnějším kandidátem pro vysoce výkonná datová centra, zejména pro organizace, které chtějí využít své stávající investice do Ethernetu a vyhnout se proprietárním ekosystémům.

D. Disagregované výpočty a fotonika

  • Disagregované výpočty (Disaggregated Computing): Tento nový přístup si klade za cíl zlepšit efektivitu datových center oddělením zdrojů, jako jsou výpočetní výkon, úložiště a paměť, od tradičních serverů. Tyto zdroje jsou pak znovu sestavovány do flexibilních poolů propojených pokročilými sítěmi. Klíčovým důsledkem je, že komunikace, která kdysi probíhala uvnitř serveru, nyní prochází sítí, což dramaticky zvyšuje zátěž a činí ultranízkou latenci kritickou. Tento trend posiluje potřebu vysoce výkonných propojovacích technologií jako RoCE a InfiniBand a pohání vývoj nových, jako je CXL.
  • Fotonika v sítích datových center: Křemíková fotonika integruje optické komponenty na křemíkové čipy, což umožňuje vysokorychlostní optické propojení s nízkou spotřebou energie. Tato technologie nabízí mnohem rychlejší přenosové rychlosti (přes 100 Gb/s), nižší latenci a lepší energetickou účinnost než tradiční měď. Stává se nezbytnou pro splnění rostoucích požadavků na provoz v datových centrech a umožňuje novou generaci vysokorychlostního Ethernetu.

Vztah mezi těmito trendy je symbiotický. Disagregované architektury vyžadují pokročilé sítě, které poskytují propojovací technologie jako RoCE, InfiniBand a CXL. Na druhé straně dosažení potřebných rychlostí pro tyto propojovací technologie, zejména pro budoucí standardy 800GbE a 1,6TbE, bude záviset na technologiích, jako je křemíková fotonika.

VIII. Doporučení a závěr

Výběr vysoce výkonné propojovací technologie je kritické strategické rozhodnutí, které musí být v souladu se specifickými potřebami, rozpočtem, infrastrukturou a dlouhodobou vizí organizace.

  • Pro maximální hrubý výkon a kritické HPC/AI: InfiniBand je jasným zlatým standardem. Jeho nativní RDMA, řízení toku na bázi kreditů a specializovaný design poskytují nejnižší latenci a nejvyšší propustnost se zaručeným bezztrátovým výkonem. Organizace s rozpočtem a odbornými znalostmi by měly zvolit InfiniBand pro rozsáhlé clustery, kde záleží na každé mikrosekundě.
  • Pro vysoký výkon s nákladovou efektivitou a integrací Ethernetu: RoCE v2 je silnou a stále populárnější alternativou. Nabízí významné zvýšení výkonu oproti TCP/IP a může se přiblížit výkonu InfiniBandu s využitím stávající ethernetové infrastruktury. Je ideální pro organizace, které modernizují svá datová centra bez kompletní přestavby. Tato volba však vyžaduje závazek k pečlivé konfiguraci a správě bezztrátové ethernetové sítě.
  • Pro specializované aplikace nebo starší prostředí RDMA přes TCP: iWARP může být vhodný ve specifických případech, zejména tam, kde je použití stávající infrastruktury TCP/IP nutností a špičkový výkon není primárním cílem. Jeho nižší výkon a vyšší složitost správy však omezují jeho použití v moderních vysoce výkonných nasazeních.
  • Pro všeobecné síťové použití: Standardní Ethernet/TCP/IP zůstává nejběžnější a nákladově nejefektivnější volbou pro prostředí bez extrémních požadavků na výkon. Jeho snadné použití a komoditní hardware ho činí ideálním pro obecné podnikové sítě, LAN a standardní cloudovou infrastrukturu.
  • Zvažování nových technologií pro budoucí zajištění: Organizace by měly sledovat vývoj CXL pro paměťově-centrické a disagregované architektury, protože doplňuje tradiční síťové struktury optimalizací sdružování zdrojů. Podobně je NVLink kritický pro optimalizaci komunikace v systémech NVIDIA s vysokým podílem GPU. Tyto technologie ukazují diverzifikaci propojovacích technologií pro různé vrstvy výpočetní hierarchie. Navíc vývoj 800GbE a 1,6TbE Ethernetu, spolu s pokroky ve fotonice, bude i nadále činit RoCE ještě silnější volbou.

Závěrem lze říci, že oblast vysoce výkonných sítí je komplexní, poháněná požadavky AI, HPC a posunem směrem k disagregovaným výpočtům. Zatímco InfiniBand vede v absolutním výkonu pro specializovaná prostředí, RoCE v2 poskytuje silnou a flexibilní alternativu, která propojuje výhody RDMA s všudypřítomností Ethernetu. Vznik CXL a NVLink naznačuje strategickou diverzifikaci propojovacích technologií, optimalizujících různé komunikační vrstvy. Optimální řešení bude vždy strategickou rovnováhou mezi požadavky na výkon, náklady, stávající infrastrukturou a vizí do budoucna.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *