I. Zhrnutie pre vedenie
Moderné dátové centrá musia podporovať náročné pracovné zaťaženia, ako je vysokovýkonné počítanie (HPC), umelá inteligencia/strojové učenie (AI/ML) a analýza veľkých dát. Tieto aplikácie vyžadujú ultra nízku latenciu, vysokú šírku pásma a minimálne zaťaženie procesora. Tradičné sieťové protokoly ako TCP/IP nedokážu splniť tieto požiadavky kvôli svojej vysokej réžii a latencii.
Technológia priameho prístupu do vzdialenej pamäte (RDMA) je kľúčová pre vysokovýkonné prepojenia. RDMA umožňuje sieťovým počítačom prenášať dáta priamo medzi ich pamäťami bez zapojenia operačných systémov alebo procesorov (z pamäte do pamäte). Tento proces dramaticky znižuje latenciu a zaťaženie CPU.
- InfiniBand je účelovo vytvorená, proprietárna sieťová štruktúra navrhnutá pre najvyšší možný výkon a natívnu bezstratovú prevádzku.
- RoCE v2 (RDMA cez konvergovaný Ethernet) aplikuje výhody RDMA na štandardný Ethernet, čím ponúka smerovateľnú a nákladovo efektívnejšiu možnosť, ktorá si však vyžaduje špecifické konfigurácie na dosiahnutie bezstratovosti.
- iWARP je ďalšie riešenie RDMA cez Ethernet založené na TCP, ale je všeobecne menej rozšírené a ponúka nižší výkon ako RoCE v2.
Výber správneho prepojenia je strategické rozhodnutie, ktoré závisí od požiadaviek na výkon, rozpočtu, existujúcej infraštruktúry a cieľov v oblasti škálovateľnosti. Táto správa analyzuje tieto technológie, porovnáva ich so štandardným Ethernetom/TCP/IP a skúma nové alternatívy ako CXL a NVLink, aby pomohla pri tomto dôležitom rozhodovaní.
II. Úvod do vysokovýkonných sietí a RDMA
Dnešný digitálny svet sa vyznačuje exponenciálnym rastom aplikácií náročných na dáta, ako sú vysokovýkonné počítanie (HPC), umelá inteligencia/strojové učenie (AI/ML) a analýza veľkých dát. Tieto pracovné zaťaženia musia rýchlo a efektívne presúvať obrovské objemy dát medzi výpočtovými uzlami a úložiskami. Napríklad aplikácie umelej inteligencie sú veľmi citlivé na integritu dát a vyžadujú bezstratové siete, kde jediná stratená správa môže zničiť celý trénovací cyklus. Pre efektívne spracovanie dát je pre tieto aplikácie nevyhnutná aj prevádzka s vysokou šírkou pásma.
Obmedzenia tradičného Ethernetu s TCP/IP pre vysokovýkonné aplikácie
Hoci je tradičný Ethernet s TCP/IP spoľahlivý pre bežné sieťové použitie, pre vysokovýkonné aplikácie má zásadné obmedzenia:
- Vysoká latencia a réžia CPU: Dizajn TCP/IP posiela dáta cez viacero softvérových vrstiev v jadre operačného systému, čo si vyžaduje značné zapojenie CPU. Tento proces pridáva značnú latenciu (typicky desiatky mikrosekúnd) a značne zaťažuje CPU. Pre aplikácie citlivé na latenciu sa to stáva hlavným úzkym hrdlom, pretože CPU trávi čas spravovaním sieťovej prevádzky namiesto vykonávania aplikácie. Táto „daň za CPU“ vyplývajúca z prepínania kontextu a kopírovania dát je hlavným dôvodom pre prijatie technológií RDMA, ktoré odľahčujú spracovanie siete a uvoľňujú CPU pre úlohy aplikácie.
- Obmedzenia priepustnosti: Efektívnu priepustnosť TCP obmedzuje niekoľko faktorov, vrátane veľkosti prenosového okna, veľkosti segmentu a straty paketov. Štandardná veľkosť okna TCP (často obmedzená na 65 535 bajtov) môže brániť plnému využitiu liniek s vysokou šírkou pásma, najmä v sieťach s vyššou latenciou. Okrem toho hlavný mechanizmus spoľahlivosti TCP – opakované posielanie paketov – spôsobuje oneskorenia a spotrebúva dodatočnú šírku pásma, čo znižuje výkon v zahltených alebo stratových sieťach.
- Problémy so škálovateľnosťou: Hoci sa TCP/IP dobre škáluje pre veľké siete, jeho dizajn uprednostňuje všeobecnú spoľahlivosť pred surovým výkonom. To ho robí menej efektívnym pre scenáre vyžadujúce extrémnu priepustnosť a minimálnu latenciu, ako sú rozsiahle HPC klastre alebo inferencia AI v reálnom čase.
Základy priameho prístupu do vzdialenej pamäte (RDMA) a jeho hlavné výhody
Priamy prístup do vzdialenej pamäte (RDMA) bol vyvinutý na prekonanie obmedzení TCP/IP vo vysokovýkonných prostrediach. Jeho hlavné výhody pramenia z obchádzania CPU a operačného systému počas prenosu dát:
- Priamy prístup do pamäte (bez kopírovania): RDMA prenáša dáta priamo z pamäte jedného počítača do pamäte druhého bez zapojenia CPU alebo OS ktoréhokoľvek systému. Tento prístup „bez kopírovania“ (zero-copy) eliminuje medziľahlé dátové buffery a prepínanie kontextu, ktoré sú hlavnými zdrojmi réžie v tradičných sieťach.
- Znížená latencia a zaťaženie CPU: Obchádzaním CPU a OS RDMA drasticky znižuje latenciu komunikácie a uvoľňuje cykly CPU. To priamo vedie k rýchlejším výpočtom a lepšiemu spracovaniu dát v reálnom čase. Napríklad latencia aplikácie môže klesnúť z približne 50 mikrosekúnd s TCP/IP na 2–5 mikrosekúnd s RDMA.
- Vyššie využitie šírky pásma: Efektívna dátová cesta a znížená réžia RDMA umožňujú aplikáciám lepšie využívať dostupnú šírku pásma siete, čo vedie k vyššej efektívnej priepustnosti.
- Kľúčové implementácie: Hlavnými dnes používanými technológiami RDMA sú InfiniBand, RoCE (verzie 1 a 2) a iWARP.
III. RoCE v2: RDMA cez konvergovaný Ethernet
RoCE v2 je významným krokom vpred vo vysokovýkonných sieťach, ktorý rozširuje výhody RDMA do široko používaného ekosystému Ethernetu.
A. Architektonické princípy
- Evolúcia od RoCE v1: RoCE v1 bol protokol druhej vrstvy (Ethertype 0x8915), čo ho obmedzovalo na jednu broadcastovú doménu Ethernetu a limitovalo jeho škálovateľnosť. RoCE v2 to rieši fungovaním na internetovej vrstve. Zapuzdruje RDMA prevádzku do UDP/IP paketov (s použitím cieľového UDP portu 4791), čo ju robí smerovateľnou naprieč sieťami tretej vrstvy (IP). Táto smerovateľnosť je kritickým zlepšením, ktoré umožňuje použitie RoCE v2 v rozsiahlych dátových centrách a cloudových prostrediach.
- Integrácia RDMA cez Ethernet: RoCE poskytuje metódu na vykonávanie RDMA cez štandardnú ethernetovú sieť. Efektívne nahrádza sieťovú vrstvu InfiniBand hlavičkami IP a UDP, pričom zachováva jadro transportnej vrstvy InfiniBand a protokol RDMA. Tento dizajn umožňuje RoCE využívať existujúcu ethernetovú infraštruktúru.
- Formát paketu: Paket RoCE v2 obsahuje hlavičku IP a hlavičku UDP, ktoré zapuzdrujú transportný protokol RDMA. Hoci UDP nezaručuje poradie paketov, štandard RoCE v2 vyžaduje, aby pakety s rovnakým zdrojovým portom a cieľovou adresou neboli preusporiadané.
- Kompromis „toho najlepšieho z oboch svetov“: Dizajn RoCE v2 je strategickým kompromisom, ktorého cieľom je poskytnúť vysoký výkon RDMA na flexibilnej, nákladovo efektívnej a všadeprítomnej platforme Ethernet. Hoci tento prístup ponúka širokú kompatibilitu, vytvára kľúčovú výzvu: zabezpečenie bezstratového výkonu, ktorý RDMA potrebuje, cez ethernetovú sieť, ktorá je prirodzene stratová.
B. Výkonnostný profil
- Latencia: Hostiteľské kanálové adaptéry (HCA) RoCE môžu dosiahnuť veľmi nízke latencie, až 1,3 mikrosekundy. Na aplikačnej úrovni RoCE znižuje latenciu na približne 5 mikrosekúnd, čo je obrovské zlepšenie oproti 50 mikrosekundám typickým pre TCP/IP. Hoci InfiniBand ponúka o niečo nižšiu natívnu latenciu, výkon RoCE je vynikajúci pre aplikácie v reálnom čase.
- Šírka pásma: RoCE v2 podporuje vysokú šírku pásma s rýchlosťami až 400 Gb/s na port.
- Odľahčenie CPU: Podobne ako iné protokoly RDMA, RoCE obchádza CPU pri prenose dát. Toto odľahčenie uvoľňuje cenné zdroje CPU pre výpočtovo náročné úlohy namiesto spracovania siete.
- Bezstratový výkon: Aby sa výkon RoCE vyrovnal výkonu InfiniBandu, závisí od bezstratovej ethernetovej siete. To sa zvyčajne dosahuje implementáciou funkcií premostenia dátových centier (DCB), najmä prioritného riadenia toku (PFC) a explicitného oznámenia o zahltení (ECN).
C. Infraštruktúra a správa
- Hardvérové/softvérové požiadavky: RoCE funguje so štandardným ethernetovým hardvérom, ako sú prepínače a káble, čo organizáciám umožňuje využívať existujúcu infraštruktúru. Vyžaduje si však hostiteľské kanálové adaptéry (HCA) schopné RoCE na koncových bodoch. Softvérová podpora je vyspelá, s implementáciami v Mellanox OFED 2.3+ a integrovaná do linuxového jadra v4.5+.
- Konfigurácia bezstratovej siete: Hoci RoCE používa štandardný Ethernet, vytvorenie bezstratovej DCB siete môže byť zložitejšie ako nastavenie siete InfiniBand. Každý komponent, od koncových bodov po prepínače, musí byť starostlivo nakonfigurovaný. To zahŕňa nastavenie prioritného riadenia toku (PFC), vylepšeného výberu prenosu (ETS) a mechanizmov oznamovania zahltenia. Aby to fungovalo naprieč sieťami tretej vrstvy, tieto bezstratové charakteristiky musia byť zachované aj cez smerovače, často mapovaním nastavení priorít druhej vrstvy na nastavenia QoS tretej vrstvy (DSCP).
- Úvahy o správe: RoCE možno spravovať pomocou štandardných ethernetových nástrojov. Avšak zabezpečenie konzistentného bezstratového výkonu a správa zahltenia v rozsiahlych nasadeniach RoCE v2 môže byť náročná a vyžaduje si špecializované odborné znalosti.
- Skryté náklady „nákladovej efektívnosti“: RoCE sa často označuje za „nákladovo efektívne“, pretože môže využívať existujúcu ethernetovú infraštruktúru, ale to je zjednodušenie. Dosiahnutie výkonu podobného InfiniBandu si vyžaduje dokonale nakonfigurovanú bezstratovú ethernetovú sieť. Zložitosť nastavenia funkcií premostenia dátových centier (DCB), ako sú PFC a ECN, môže byť oveľa vyššia ako konfigurácia siete InfiniBand. Táto zložitosť vedie k vyšším prevádzkovým nákladom na návrh siete, riešenie problémov a správu a môže si vyžadovať drahšie ethernetové prepínače. V dôsledku toho môžu byť počiatočné úspory na hardvéri pri RoCE vykompenzované týmito vyššími prevádzkovými nákladmi. Pre presné porovnanie je nevyhnutná dôkladná analýza celkových nákladov na vlastníctvo (TCO).
D. Kľúčové aplikácie
RoCE v2 je vynikajúcim riešením pre mnohé aplikácie v dátových centrách a podnikoch. Je obzvlášť vhodný pre prostredia, ktoré potrebujú ultra nízku latenciu a vysokú priepustnosť, ako sú pracovné zaťaženia AI, vysokofrekvenčné obchodovanie a analýzy v reálnom čase. Zlepšuje tiež výkon aplikácií, ktoré sú silne závislé od databáz alebo súborových I/O operácií. Okrem toho RoCE v2 pomáha pri kontinuite podnikania a obnove po katastrofe tým, že umožňuje rýchlu a efektívnu replikáciu dát. Jeho rozšírené použitie v klastroch na trénovanie AI podčiarkuje jeho dôležitosť v modernom počítaní.
IV. InfiniBand: Špecializovaná vysokovýkonná sieťová štruktúra
InfiniBand je špičkové vysokovýkonné prepojenie, navrhnuté od základov tak, aby poskytovalo bezkonkurenčnú rýchlosť, minimálnu latenciu a vysokú spoľahlivosť pre náročné výpočtové prostredia.
A. Architektonické princípy
- Natívne RDMA: InfiniBand bol vytvorený s RDMA integrovaným do celého svojho protokolového zásobníka, od fyzickej vrstvy nahor. Tento dizajn od základov zaručuje, že operácie RDMA sú vysoko efektívne a vytvárajú priame a chránené dátové kanály medzi uzlami bez zapojenia CPU.
- Topológia prepínanej štruktúry: InfiniBand používa topológiu prepínanej štruktúry pre priame spojenia bod-bod medzi zariadeniami. Architektúra zahŕňa hostiteľské kanálové adaptéry (HCA) na procesoroch a cieľové kanálové adaptéry (TCA) na perifériách, čo umožňuje efektívnu komunikáciu.
- Riadenie toku na báze kreditov: Základnou vlastnosťou InfiniBandu je jeho riadenie toku na báze kreditov. Tento algoritmus na hardvérovej úrovni zaručuje bezstratovú komunikáciu tým, že zabezpečuje, aby odosielateľ posielal dáta len vtedy, ak má prijímač dostatok miesta v bufferi (kreditov) na ich prijatie. Táto natívna spoľahlivosť zabraňuje strate paketov a odlišuje InfiniBand od technológií, ktoré na dosiahnutie bezstratovosti potrebujú konfigurácie na vyšších vrstvách.
- Proprietárne štandardy: InfiniBand sa riadi proprietárnymi štandardmi definovanými asociáciou InfiniBand Trade Association (IBTA), založenou v roku 1999. Ekosystém je silne ovládaný spoločnosťou NVIDIA (prostredníctvom akvizície Mellanoxu), popredným výrobcom adaptérov a prepínačov InfiniBand.
B. Výkonnostný profil
- Ultra nízka latencia: InfiniBand konzistentne ponúka najnižšiu latenciu. Latencia adaptérov môže byť až 0,5 mikrosekundy a latencia medzi portami prepínača je okolo 100 nanosekúnd – výrazne nižšia ako 230 nanosekúnd porovnateľných ethernetových prepínačov. Na aplikačnej vrstve môže InfiniBand dosiahnuť latenciu až 2 mikrosekundy v porovnaní s 50 mikrosekundami TCP/IP.
- Vysoká priepustnosť: InfiniBand podporuje extrémne vysoké prenosové rýchlosti. Moderné verzie ako HDR a NDR ponúkajú až 200 Gb/s a 400 Gb/s na linku. Agregované linky môžu dosiahnuť ešte vyššiu priepustnosť, až 800 Gb/s (NDR) a dokonca 1,6 Tb/s (XDR).
- Efektivita CPU: Kľúčovou silou InfiniBandu je jeho schopnosť poskytovať ultra nízku latenciu a extrémne vysokú šírku pásma s takmer nulovým využitím CPU. Toto odľahčenie spracovania siete je kritickou výhodou pre výpočtovo náročné pracovné zaťaženia.
- Výkon z návrhu vs. výkon z konfigurácie: InfiniBand a RoCE majú zásadný rozdiel vo svojom prístupe. InfiniBand bol od základov navrhnutý pre RDMA, s fyzickou a transportnou vrstvou navrhnutou pre spoľahlivosť na hardvérovej úrovni, vrátane natívneho algoritmu na báze kreditov pre bezstratovú komunikáciu. Na rozdiel od toho, RoCE beží na štandardnom Ethernete a spolieha sa na konfiguráciu funkcií, ako sú prioritné riadenie toku (PFC) a explicitné oznámenie o zahltení (ECN), na vytvorenie bezstratovej siete. To znamená, že InfiniBand poskytuje zaručený vysoký výkon hneď po vybalení, zatiaľ čo výkon RoCE závisí od kvality základnej konfigurácie Ethernetu.
C. Infraštruktúra a správa
- Špecializovaný hardvér: InfiniBand vyžaduje špecializovaný hardvér, vrátane dedikovaných hostiteľských kanálových adaptérov (HCA), prepínačov, smerovačov a proprietárnych káblov. To zvyčajne vedie k vyššej počiatočnej investícii v porovnaní s riešeniami založenými na Ethernete.
- Centralizovaná správa: Siete InfiniBand sú spravované centrálnym správcom podsiete (SM), ktorý počíta a distribuuje smerovacie tabuľky a spravuje konfigurácie, ako sú partície a kvalita služby (QoS). Tento centralizovaný prístup môže po počiatočnom nastavení zjednodušiť správu vo veľkých klastroch.
- Špecializované odborné znalosti: Nasadenie a údržba sietí InfiniBand si zvyčajne vyžaduje špecializované znalosti, čo môže zvýšiť prevádzkové náklady a vytvoriť strmšiu krivku učenia pre IT personál.
- Ekosystém: Ekosystém InfiniBand je vyspelý, ale ovládaný spoločnosťou NVIDIA/Mellanox.
D. Kľúčové aplikácie
InfiniBand je priemyselným štandardom pre prostredia vysokovýkonného počítania (HPC) a je najrýchlejšie rastúcim prepojením pre tieto aplikácie. Je to primárna technológia odporúčaná IBTA. Jeho ultra nízka latencia a vysoká šírka pásma sú nevyhnutné pre náročné pracovné zaťaženia, ako je trénovanie rozsiahlych modelov AI/ML, analýza veľkých dát a masívne databázové operácie. Je tiež kľúčový pre veľké simulácie (napr. predpoveď počasia) a vysokofrekvenčné finančné služby, kde sú rýchlosť a integrita dát kritické. K júnu 2022 používalo InfiniBand 62 % zo 100 najvýkonnejších superpočítačov na svete.
V. iWARP: RDMA cez štandardný TCP/IP
iWARP (Internet Wide Area RDMA Protocol) je ďalšia metóda implementácie RDMA, ktorá je pozoruhodná svojím využitím štandardného protokolového zásobníka TCP/IP.
A. Architektonické princípy
- RDMA cez TCP/IP: iWARP je protokol, ktorý implementuje RDMA cez štandardné IP siete. Na rozdiel od RoCE, ktorý používa UDP, iWARP je postavený na spoľahlivých transportných protokoloch ako TCP a SCTP.
- Kľúčové komponenty: Prevádzka iWARP sa spolieha na niekoľko komponentov. Protokol priameho umiestnenia dát (DDP) umožňuje prenos bez kopírovania umiestnením dát priamo do pamäte aplikácie. Protokol priameho prístupu do vzdialenej pamäte (RDMAP) poskytuje služby pre operácie čítania a zápisu RDMA. Na umožnenie DDP cez TCP je potrebná špecifická adaptačná vrstva, rámovanie zarovnané na Marker PDU (MPA).
- Spoľahlivosť: Unikátnou vlastnosťou iWARP je, že jeho spoľahlivosť je poskytovaná základným protokolom TCP. To sa líši od RoCE v2, ktorý používa UDP a na spoľahlivosť vyžaduje externé mechanizmy, ako je premostenie dátových centier (DCB). V dôsledku toho iWARP podporuje iba spoľahlivú, spojenú komunikáciu.
B. Výkonnostný profil
- Porovnávacia latencia a priepustnosť: Hoci má iWARP nižšiu latenciu ako tradičný TCP/IP, jeho výkon je všeobecne horší ako u RoCE. V roku 2011 bola najnižšia latencia iWARP HCA 3 mikrosekundy, zatiaľ čo RoCE HCA dosahovali 1,3 mikrosekundy. Benchmarky konzistentne ukazujú, že RoCE doručuje správy oveľa rýchlejšie ako iWARP, s priepustnosťou viac ako 2x vyššou pri 40GbE a 5x vyššou pri 10GbE.
- Odľahčenie CPU: Podobne ako iné protokoly RDMA, iWARP minimalizuje zaťaženie CPU tým, že umožňuje priame prenosy do pamäte. Môže používať mechanizmy na odľahčenie TCP (TOE) s RDMA hardvérom na dosiahnutie výsledkov bez kopírovania a ďalšie zníženie zapojenia CPU.
C. Infraštruktúra a správa
- Kompatibilita so štandardným Ethernetom: Hlavnou výhodou iWARP je jeho schopnosť bežať na štandardnej ethernetovej infraštruktúre s minimálnymi zmenami v existujúcej sieti. To umožňuje organizáciám využiť svoje súčasné investície.
- Hardvérové požiadavky: Napriek kompatibilite so štandardnými ethernetovými prepínačmi si iWARP stále vyžaduje sieťové karty schopné iWARP na koncových bodoch.
- Aspekty integrácie: iWARP je integrovaný do hlavných operačných systémov, ako sú Microsoft Windows Server a moderné linuxové jadrá. To podporuje aplikácie ako SMB Direct, iSCSI Extensions for RDMA (iSER) a Network File System over RDMA (NFS over RDMA).
- Problémy so správou: Správa prevádzky iWARP môže byť náročná. Zdieľa portový priestor TCP, čo komplikuje správu tokov a sťažuje identifikáciu RDMA prevádzky. Celkovo sa iWARP považuje za ťažšie spravovateľný ako RoCE.
D. Trhová relevantnosť
- Obmedzené prijatie: iWARP je „neobvyklá“ alebo „menej často používaná“ implementácia RDMA v porovnaní s InfiniBand a RoCE v2. Jeho riešenia mali „obmedzený úspech“ kvôli problémom s implementáciou a nasadením.
- Paradox spoliehania sa na TCP: Rozhodnutie o dizajne iWARP vrstviť RDMA nad TCP poskytuje vstavanú spoľahlivosť a kompatibilitu, ale paradoxne mu bráni v plnom dosiahnutí základných výhod RDMA. Vrodená réžia protokolu TCP, dokonca aj s hardvérovým odľahčením, zrejme bráni iWARP dosiahnuť ultra nízku latenciu a vysokú priepustnosť InfiniBandu alebo RoCE. Tento kompromis vo výkone viedol k jeho obmedzenému prijatiu na trhu.
VI. Porovnávacia analýza: RoCE v2 vs. InfiniBand vs. iWARP vs. štandardný Ethernet
Podrobné porovnanie výkonu, infraštruktúry a prevádzkových metrík je kľúčové pre výber správneho vysokovýkonného prepojenia.
A. Výkonnostné benchmarky
Výkon týchto prepojení sa výrazne líši, najmä v latencii, šírke pásma a využití CPU.
- Latencia:
- InfiniBand: Ponúka najnižšiu latenciu. Latencia medzi portami prepínača je okolo 100 nanosekúnd, zatiaľ čo latencia adaptéra je len 0,5 až 1,3 mikrosekundy. Latencia na aplikačnej vrstve môže byť len 2 mikrosekundy.
- RoCE v2: Poskytuje ultra nízku latenciu. Latencia ethernetového prepínača je okolo 230 nanosekúnd, zatiaľ čo latencia HCA môže byť až 1,3 mikrosekundy. Latencia na aplikačnej vrstve je zvyčajne okolo 5 mikrosekúnd.
- iWARP: Má vyššiu latenciu ako RoCE, s latenciou HCA hlásenou okolo 3 mikrosekúnd (údaje z roku 2011). Konzistentne má horší výkon ako RoCE.
- Štandardný TCP/IP: Má najvyššiu latenciu, s jednosmernou latenciou od 10 do 55 milisekúnd. Latencia na aplikačnej vrstve je zvyčajne okolo 50 mikrosekúnd.
- Šírka pásma:
- InfiniBand: Podporuje veľmi vysokú šírku pásma. Moderné verzie ako NDR ponúkajú až 400 Gb/s na port a XDR dosahuje až 800 Gb/s. Budúci GDR sa predpokladá, že dosiahne 1,6 Tb/s.
- RoCE v2: Schopný vysokej šírky pásma, podporuje až 400 Gb/s na port.
- iWARP: Všeobecne má nižšiu priepustnosť ako RoCE.
- Štandardný TCP/IP: Priepustnosť je často obmedzená réžiou protokolu a opakovanými prenosmi, čo sťažuje efektívne využitie liniek s vysokou šírkou pásma.
- Odľahčenie CPU:
- InfiniBand, RoCE v2, iWARP: Všetky tri technológie RDMA odľahčujú značnú časť práce CPU obchádzaním operačného systému, čím uvoľňujú zdroje CPU pre iné úlohy.
- Štandardný TCP/IP: Spôsobuje vysoké zaťaženie CPU, pretože jadro je silne zapojené do spracovania dát.
- Bezstratový mechanizmus:
- InfiniBand: Disponuje natívnym riadením toku na báze kreditov na hardvérovej úrovni, čo zaručuje bezstratovú komunikáciu.
- RoCE v2: Spolieha sa na bezstratovú konfiguráciu Ethernetu, používajúc funkcie premostenia dátových centier (DCB), ako sú PFC a ECN. Má tiež end-to-end mechanizmus spoľahlivého doručenia s hardvérovými opakovanými prenosmi.
- iWARP: Využíva vstavaný spoľahlivý transport TCP na integritu dát.
- Štandardný TCP/IP: Používa model doručenia „best-effort“, spoliehajúc sa na opakované prenosy na vyšších vrstvách na zabezpečenie spoľahlivosti, čo pridáva latenciu.
Nasledujúca tabuľka zhrňuje výkonnostné charakteristiky:
| Vlastnosť | InfiniBand | RoCE v2 | iWARP | Štandardný Ethernet/TCP/IP |
|---|---|---|---|---|
| Základná technológia | Natívne RDMA | RDMA cez Ethernet (UDP/IP) | RDMA cez Ethernet (TCP/IP) | Tradičný vrstvený protokol |
| Typická latencia aplikácie (µs) | 2 | 5 | >3 (HCA 2011) | 50 |
| Latencia medzi portami prepínača (ns) | 100 | 230 | N/A (spolieha sa na Ethernet) | Typicky vyššia, variabilná |
| Max. šírka pásma (Gb/s na port/linku) | 400 (NDR), 800 (XDR), 1,6T (GDR) | 400 | Všeobecne nižšia ako RoCE | 400+ (ale obmedzená réžiou protokolu) |
| Réžia CPU | Takmer nulová | Veľmi nízka | Nízka | Vysoká |
| Bezstratový mechanizmus | Natívne riadenie toku na báze kreditov | Vyžaduje bezstratový Ethernet (PFC, ECN) | Spoľahlivý transport TCP | Best-Effort, spolieha sa na opakované prenosy |
| Smerovateľnosť (L2/L3) | L3 (cez správcu podsiete) | L3 (smerovateľný RoCE) | L3 | L3 (štandardné smerovanie IP) |
B. Infraštruktúra a ekosystém
- Hardvérové závislosti:
- InfiniBand: Vyžaduje kompletnú sadu špecializovaného hardvéru, vrátane InfiniBand HCA, prepínačov a proprietárnych káblov.
- RoCE v2: Vyžaduje HCA schopné RoCE, ale funguje na štandardných ethernetových prepínačoch a kábloch, čo umožňuje integráciu s existujúcimi sieťami.
- iWARP: Vyžaduje sieťové karty schopné iWARP, ale môže používať štandardné ethernetové prepínače.
- Štandardný Ethernet: Používa široko dostupné, komoditné ethernetové sieťové karty a prepínače.
- Závislosť od dodávateľa:
- InfiniBand: Ekosystém je obmedzený a ovládaný spoločnosťou Mellanox (NVIDIA), čo môže vyvolávať obavy zo závislosti od jedného dodávateľa.
- RoCE v2: Profituje z veľkého a konkurenčného ethernetového ekosystému s viacerými dodávateľmi. Niektorí ponúkajú sieťové karty „Universal RDMA“ podporujúce RoCE aj iWARP, čím sa znižuje závislosť.
- iWARP: Tiež profituje zo širokého ethernetového ekosystému, s podporou od dodávateľov ako Intel a Chelsio.
- Interoperabilita:
- InfiniBand: Ako proprietárny štandard musia všetky komponenty spĺňať špecifikácie IBTA, aby sa zabezpečilo ich spoločné fungovanie.
- RoCE v2: Jeho základ na štandardnom Ethernete umožňuje širšiu interoperabilitu a jednoduchšiu integráciu s existujúcimi sieťami.
- iWARP: Založený na štandardných IETF RFC pre TCP/IP, čo zaručuje vysokú kompatibilitu v rámci štandardných IP sietí.
C. Nákladová efektívnosť
- Počiatočná investícia:
- InfiniBand: Zvyčajne si vyžaduje vyššiu počiatočnú investíciu kvôli špecializovanému hardvéru a licencovaniu. Pre veľké AI klastre môžu byť prepínače InfiniBand výrazne drahšie ako prepínače RoCE.
- RoCE v2: Často je nákladovo efektívnejšou možnosťou, pretože sa môže integrovať s existujúcim Ethernetom, čím sa znižujú náklady na nový hardvér. Úspory na prepínačoch pre veľké AI klastre môžu byť značné (49 % až 70 % v porovnaní s InfiniBand).
- iWARP: Používa štandardné ethernetové prepínače, ale vyžaduje špecializované adaptéry, čo môže byť stále značný náklad.
- Štandardný Ethernet: Všeobecne najlacnejšia možnosť vďaka svojmu komoditnému hardvéru.
- Celkové náklady na vlastníctvo (TCO):
- InfiniBand: Zvyčajne má vyššie TCO kvôli špecializovanému hardvéru, údržbe a potrebe školenia personálu na proprietárnu technológiu.
- RoCE v2: Môže mať nižšie TCO, ale to je podmienené. Zložitosť konfigurácie a údržby bezstratovej ethernetovej štruktúry môže výrazne zvýšiť prevádzkové náklady. Hoci počiatočné náklady na hardvér môžu byť nižšie, špecializované znalosti a úsilie potrebné na návrh, riešenie problémov a údržbu môžu tieto úspory vykompenzovať. Preto „nákladová efektívnosť“ závisí od ceny hardvéru aj od odbornosti a záťaže na správu organizácie.
- iWARP: Problémy s integráciou a správou môžu ovplyvniť jeho celkové TCO.
Nasledujúca tabuľka poskytuje porovnávací prehľad infraštruktúry a nákladových úvah:
| Vlastnosť | InfiniBand | RoCE v2 | iWARP | Štandardný Ethernet/TCP/IP |
|---|---|---|---|---|
| Požadovaný sieťový hardvér | Dedikované IB NIC, IB prepínače, IB káble | NIC schopné RoCE, štandardné Ethernet prepínače/káble | NIC schopné iWARP, štandardné Ethernet prepínače/káble | Štandardné Ethernet NIC, Ethernet prepínače/káble |
| Sieťová kompatibilita | Proprietárna (IBTA štandard) | Štandardný Ethernet (IEEE) | Štandardný Ethernet (IETF RFC) | Štandardný Ethernet (IEEE) |
| Zložitosť správy | Ťažká (špecializovaný SM) | Ťažká (konfigurácia bezstratového Ethernetu) | Ťažšia ako RoCE | Jednoduchá |
| Počiatočné náklady na hardvér (relatívne) | Vysoké | Stredné (využíva existujúce) | Stredné (špecializované NIC) | Nízke |
| Celkové náklady na vlastníctvo (relatívne) | Vyššie | Nižšie (podmienené správou) | Variabilné (problémy s integráciou) | Najnižšie |
| Ekosystém dodávateľov | Obmedzený (dominantný NVIDIA/Mellanox) | Široký (viacero dodávateľov Ethernetu) | Široký (viacero dodávateľov Ethernetu) | Veľmi široký |
D. Škálovateľnosť a flexibilita
- Smerovacie schopnosti:
- InfiniBand: Používa prepínanú štruktúru s centrálnym riadením smerovania správcom podsiete (SM). Je vysoko škálovateľný, podporuje klastre s viac ako 100 000 uzlami.
- RoCE v2: Jeho zapuzdrenie UDP/IP umožňuje smerovanie cez siete tretej vrstvy (IP), čo ho robí škálovateľným v rozsiahlych sieťach a cloudových prostrediach. Podporuje tiež ECMP pre efektívne vyvažovanie záťaže.
- iWARP: Je smerovateľný cez IP siete.
- Štandardný Ethernet: Vysoko škálovateľný a flexibilný, ale môže vyžadovať pokročilé konfigurácie ako sú architektúry spine-leaf pre efektivitu na úrovni HPC.
- Sieťové topológie:
- InfiniBand: Optimalizovaný pre HPC/AI klastre, podporuje vysokovýkonné topológie ako Fat Tree, Dragonfly+ a viacdimenzionálny Torus.
- RoCE v2: Jeho smerovanie založené na IP ho robí prispôsobiteľným takmer akejkoľvek sieťovej topológii.
- Štandardný Ethernet: Podporuje širokú škálu topológií, vrátane hviezdicovej a sieťovej.
E. Spoľahlivosť a riadenie zahltenia
- Spoľahlivosť:
- InfiniBand: Poskytuje natívnu spoľahlivosť na hardvérovej úrovni s riadením toku na báze kreditov, čo zaručuje bezstratovú komunikáciu.
- RoCE v2: Spolieha sa na bezstratovú konfiguráciu Ethernetu s použitím PFC a ETS. Zahŕňa tiež end-to-end mechanizmus spoľahlivého doručenia s hardvérovým opakovaným prenosom paketov.
- iWARP: Využíva vrodenú spoľahlivosť TCP, ktorá poskytuje opravu chýb a opakované prenosy.
- Štandardný TCP/IP: Zameriava sa na spoľahlivosť prostredníctvom opakovaných prenosov, čo môže pridať značnú latenciu a znížiť priepustnosť.
- Riadenie zahltenia:
- InfiniBand: Definuje vlastné mechanizmy riadenia zahltenia založené na označovaní FECN/BECN.
- RoCE v2: Implementuje protokol riadenia zahltenia pomocou IP ECN bitov a paketov s oznámením o zahltení (CNP). Používajú sa aj priemyselné postupy ako DCQCN.
- iWARP: Spolieha sa na zavedené algoritmy riadenia zahltenia TCP.
F. Vhodnosť pre aplikácie
- InfiniBand: Ideálna voľba pre prostredia vyžadujúce najvyššiu priepustnosť dát a najnižšiu latenciu. To zahŕňa vedecký výskum, finančné modelovanie, rozsiahle HPC klastre a najnáročnejšie tréningové pracovné zaťaženia AI/ML.
- RoCE v2: Obľúbený u podnikov, ktoré chcú využiť svoju existujúcu ethernetovú infraštruktúru a zároveň potrebujú vysoký výkon. Je vhodný pre úložiskové siete, analýzy v reálnom čase a cloudové služby, pričom ponúka rovnováhu medzi výkonom a nákladmi.
- iWARP: Môže sa zvážiť pre špecifické aplikácie, kde je existujúca infraštruktúra TCP/IP prísnou požiadavkou a ultra nízka latencia nie je hlavnou prioritou. Je vhodný pre aplikácie ako NVMeoF, iSER, SMB Direct a NFS cez RDMA, alebo ako nízkonákladová možnosť pre testovacie prostredia.
- Štandardný Ethernet/TCP/IP: Zostáva najlepšou voľbou pre všeobecné sieťové použitie, ako sú podnikové LAN a cloudová infraštruktúra, kde extrémny výkon HPC/AI nie je hlavným cieľom.
- Trilema výkon-náklady-zložitosť: Táto analýza odhaľuje zásadný kompromis pri výbere prepojenia: trilema medzi výkonom, nákladmi a zložitosťou. InfiniBand ponúka špičkový výkon a natívnu spoľahlivosť, ale za vyššiu cenu. RoCE v2 poskytuje výkon blízky InfiniBandu na Ethernete, potenciálne znižuje náklady na hardvér, ale pridáva značnú zložitosť konfigurácie. iWARP ponúka RDMA cez TCP, ale s nižším výkonom. Štandardný Ethernet je nákladovo efektívny, ale chýba mu výkon pre náročné pracovné zaťaženia. Neexistuje jediné „najlepšie“ riešenie; správna voľba si vyžaduje vyváženie týchto troch faktorov na základe špecifických potrieb a schopností.
Nasledujúca tabuľka uvádza vhodnosť aplikácií pre každú technológiu:
| Technológia | Primárne použitie | Najvhodnejšie pre | Menej vhodné pre |
|---|---|---|---|
| InfiniBand | HPC, trénovanie AI/ML, analýza veľkých dát, finančné služby (arbitráž) | Prostredia vyžadujúce absolútne najnižšiu latenciu, najvyššiu šírku pásma a natívne bezstratové záruky | Cenovo citlivé všeobecné podnikové siete, prostredia bez špecializovaných IT odborníkov |
| RoCE v2 | Dátové centrá, cloudové služby, úložiskové siete, analýzy v reálnom čase, inferencia AI/ML | Organizácie využívajúce existujúcu ethernetovú infraštruktúru pre vysoký výkon; rovnováha nákladov a výkonu | Prostredia, kde sú natívne bezstratové záruky nevyhnutné bez rozsiahlych konfiguračných znalostí |
| iWARP | NVMeoF, iSER, SMB Direct, NFS cez RDMA, testovacie/vývojové prostredia | Špecifické aplikácie vyžadujúce RDMA cez existujúci TCP/IP, kde absolútny špičkový výkon nie je kritický | Rozsiahle HPC/AI klastre, aplikácie citlivé na latenciu v reálnom čase |
| Štandardný Ethernet/TCP/IP | Všeobecné podnikové siete, LAN, internetové pripojenie, cloudová infraštruktúra | Všadeprítomné, nákladovo efektívne a flexibilné všeobecné sieťové použitie | Vysokovýkonné počítanie, trénovanie AI/ML a iné pracovné zaťaženia citlivé na latenciu a náročné na CPU |
VII. Nové vysokovýkonné prepojenia a budúce trendy
Svet vysokovýkonných sietí sa neustále mení, poháňaný dátovo náročnými pracovnými zaťaženiami a potrebou väčšej efektivity. Okrem zavedených technológií RDMA formujú budúcnosť dátových centier nové prepojenia a trendy.
A. Compute Express Link (CXL)
CXL je moderné prepojenie postavené na fyzickej vrstve PCIe, navrhnuté pre všeobecné výpočtové systémy. Jeho hlavným cieľom je umožniť rýchlu a bezproblémovú komunikáciu medzi CPU a akcelerátormi, ako sú GPU a FPGA.
Kľúčovými vlastnosťami CXL sú vysokorýchlostný prenos dát, široká kompatibilita a efektívne zdieľanie pamäte prostredníctvom koherencie vyrovnávacej pamäte. Podporuje tri typy zariadení (pre akcelerátory, zariadenia s koherentnou pamäťou a expandéry pamäte) a flexibilné topológie. CXL/PCIe Gen5 ponúka špičkovú priepustnosť 512 Gb/s s latenciou okolo 500 nanosekúnd. Zatiaľ čo InfiniBand má nižšiu latenciu (okolo 100 nanosekúnd), CXL je lepší pre prístup k pamäti s nízkou latenciou, kde je kritická koherencia vyrovnávacej pamäte.
Významným vývojom bolo zlúčenie konzorcií Gen-Z a CXL v roku 2022, čo stavia CXL do pozície jediného priemyselného štandardu pre túto triedu prepojení zameraných na pamäť.
CXL predstavuje posun od tradičných sietí medzi uzlami (ako RoCE a InfiniBand) k pamäťovej koherencii a dezagregácii zdrojov. To znamená, že pre určité pracovné zaťaženia sa CXL môže stať primárnym prepojením, ktoré dopĺňa alebo znižuje potrebu tradičných sieťových štruktúr.
B. NVLink
NVLink je proprietárne vysokorýchlostné prepojenie s nízkou latenciou od spoločnosti NVIDIA, navrhnuté pre priamu komunikáciu medzi GPU a GPU, a medzi GPU a CPU v rámci jej akcelerovaných výpočtových platforiem.
NVLink je kľúčovou súčasťou riešení NVIDIA pre AI a HPC, ako sú jej architektúry GB200 a GB300. Je rozhodujúci pre škálovanie trénovania modelov AI tým, že poskytuje extrémne rýchle prenosy dát medzi GPU.
NVLink ukazuje trend smerom k vertikálnej integrácii a špecializovanému výkonu. Jeho proprietárna povaha je v kontraste s otvorenými štandardmi ako RoCE alebo InfiniBand. Tento dizajn maximalizuje výkon v rámci hardvérového zásobníka jedného dodávateľa. Zatiaľ čo InfiniBand a RoCE sa starajú o všeobecné sieťové prepojenie medzi uzlami, NVLink optimalizuje komunikáciu v rámci a medzi systémami GPU, čím vytvára vrstvenú architektúru prepojení, kde rôzne technológie slúžia rôznym potrebám.
C. Budúce rýchlosti Ethernetu
Ethernet sa vyvinul z 10 Mb/s na 400 Gb/s a vývoj pokračuje s normami 800GbE a 1.6TbE na obzore. Tieto rýchlejšie rýchlosti budú nevyhnutné pre aplikácie novej generácie, ako sú kvantové počítanie, pokročilá AI a imerzívne technológie.
Neustále zvyšovanie rýchlostí Ethernetu priamo prospieva RoCE. Keďže RoCE je postavené na Ethernete, automaticky profituje z týchto pokrokov, čo mu pomáha zostať konkurencieschopným voči InfiniBandu. Rast cloudových služieb už teraz tlačí na nasadzovanie 200GbE a 400GbE, pričom 800GbE a 1.6TbE prídu ako ďalšie.
Neustála relevantnosť Ethernetu a RoCE sú úzko prepojené. S pokrokom v rýchlostiach Ethernetu sa RoCE stáva ešte silnejším kandidátom pre vysokovýkonné dátové centrá, najmä pre organizácie, ktoré chcú využiť svoje existujúce investície do Ethernetu a vyhnúť sa proprietárnym ekosystémom.
D. Dezagregované výpočty a fotonika
- Dezagregované výpočty: Tento nový prístup sa zameriava na zlepšenie efektivity dátových centier oddelením zdrojov, ako sú výpočty, úložiská a pamäť, od tradičných serverov. Tieto zdroje sú potom znovu zostavované do flexibilných bazénov prepojených pokročilými sieťami. Kľúčovým výsledkom je, že komunikácia, ktorá sa kedysi odohrávala vnútri servera, teraz prechádza sieťou, čo dramaticky zvyšuje zaťaženie a robí ultra nízku latenciu kritickou. Tento trend posilňuje potrebu vysokovýkonných prepojení ako RoCE a InfiniBand a poháňa vývoj nových, ako je CXL.
- Fotonika v sieťach dátových centier: Kremíková fotonika integruje optické komponenty na kremíkové čipy, čo umožňuje vysokorýchlostné optické prepojenia s nízkou spotrebou energie. Táto technológia ponúka oveľa rýchlejšie prenosové rýchlosti (viac ako 100 Gb/s), nižšiu latenciu a lepšiu energetickú účinnosť ako tradičná meď. Stáva sa nevyhnutnou pre splnenie rastúcich požiadaviek na prevádzku v dátových centrách a umožňuje novú generáciu vysokorýchlostného Ethernetu.
Vzťah medzi týmito trendmi je symbiotický. Dezagregované architektúry vyžadujú pokročilé siete, ktoré poskytujú prepojenia ako RoCE, InfiniBand a CXL. Naopak, dosiahnutie potrebných rýchlostí pre tieto prepojenia, najmä pre budúce štandardy 800GbE a 1.6TbE, bude závisieť od technológií ako kremíková fotonika.
VIII. Odporúčania a záver
Výber vysokovýkonného prepojenia je kritické strategické rozhodnutie, ktoré musí byť v súlade so špecifickými potrebami, rozpočtom, infraštruktúrou a dlhodobou víziou organizácie.
- Pre maximálny surový výkon a kľúčové HPC/AI: InfiniBand je jasným zlatým štandardom. Jeho natívne RDMA, riadenie toku na báze kreditov a účelový dizajn poskytujú najnižšiu latenciu a najvyššiu priepustnosť so zaručeným bezstratovým výkonom. Organizácie s rozpočtom a odbornosťou by si mali zvoliť InfiniBand pre rozsiahle klastre, kde záleží na každej mikrosekunde.
- Pre vysoký výkon s nákladovou efektívnosťou a integráciou Ethernetu: RoCE v2 je silnou a čoraz populárnejšou alternatívou. Ponúka významné zlepšenia výkonu oproti TCP/IP a môže sa priblížiť výkonu InfiniBandu využitím existujúcej ethernetovej infraštruktúry. Je ideálny pre organizácie, ktoré modernizujú svoje dátové centrá bez úplnej rekonštrukcie. Táto voľba si však vyžaduje záväzok k starostlivej konfigurácii a správe bezstratovej ethernetovej štruktúry.
- Pre špecifické aplikácie alebo staršie prostredia RDMA cez TCP: iWARP môže byť vhodný v špecifických prípadoch, najmä tam, kde je použitie existujúcej infraštruktúry TCP/IP nevyhnutnosťou a špičkový výkon nie je hlavným cieľom. Jeho nižší výkon a vyššia zložitosť správy však obmedzujú jeho použitie v moderných vysokovýkonných nasadeniach.
- Pre všeobecné sieťové použitie: Štandardný Ethernet/TCP/IP zostáva najbežnejšou a nákladovo najefektívnejšou voľbou pre prostredia bez extrémnych požiadaviek na výkon. Jeho jednoduchosť použitia a komoditný hardvér ho robia ideálnym pre všeobecné podnikové siete, LAN a štandardnú cloudovú infraštruktúru.
- Zohľadnenie nových technológií pre budúcnosť: Organizácie by mali sledovať vývoj CXL pre pamäťovo-centrické a dezagregované architektúry, pretože dopĺňa tradičné sieťové štruktúry optimalizáciou združovania zdrojov. Podobne je NVLink kritický pre optimalizáciu komunikácie v systémoch NVIDIA s vysokým podielom GPU. Tieto technológie ukazujú diverzifikáciu prepojení pre rôzne vrstvy výpočtovej hierarchie. Okrem toho vývoj 800GbE a 1.6TbE Ethernetu spolu s pokrokmi vo fotonike bude naďalej robiť z RoCE ešte výkonnejšiu možnosť.
Na záver, svet vysokovýkonných sietí je zložitý, poháňaný požiadavkami AI, HPC a posunom k dezagregovaným výpočtom. Zatiaľ čo InfiniBand vedie v absolútnom výkone pre špecializované prostredia, RoCE v2 poskytuje výkonnú a flexibilnú alternatívu, ktorá spája výhody RDMA s všadeprítomnosťou Ethernetu. Vznik CXL a NVLink naznačuje strategickú diverzifikáciu prepojení, optimalizujúc rôzne komunikačné vrstvy. Optimálne riešenie bude vždy strategickou rovnováhou medzi požiadavkami na výkon, nákladmi, existujúcou infraštruktúrou a víziou zameranou na budúcnosť.




