I. Povzetek za vodstvo
Sodobni podatkovni centri morajo podpirati zahtevne delovne obremenitve, kot so visokozmogljivo računanje (HPC), umetna inteligenca/strojno učenje (AI/ML) in analitika velikih podatkov. Te aplikacije zahtevajo izjemno nizko zakasnitev, visoko pasovno širino in minimalno porabo procesorske moči. Tradicionalni omrežni protokoli, kot je TCP/IP, teh potreb ne morejo zadovoljiti zaradi velike dodatne obremenitve in zakasnitve.
Oddaljeni neposredni dostop do pomnilnika (RDMA) je ključna tehnologija, ki omogoča visokozmogljive medsebojne povezave. RDMA omogoča omrežnim računalnikom prenos podatkov neposredno med njihovimi pomnilniki, ne da bi vključevala operacijske sisteme ali procesorje (iz pomnilnika v pomnilnik). Ta postopek dramatično zmanjša zakasnitev in obremenitev procesorja.
- InfiniBand je namensko zgrajeno, lastniško omrežno ogrodje, zasnovano za najvišjo možno zmogljivost in izvorno delovanje brez izgub.
- RoCE v2 (RDMA over Converged Ethernet) prenaša prednosti RDMA na standardni Ethernet, kar ponuja usmerljivo in stroškovno učinkovitejšo možnost, vendar za delovanje brez izgub zahteva posebne nastavitve.
- iWARP je druga rešitev RDMA prek Etherneta, ki temelji na protokolu TCP, vendar je na splošno manj pogosta in ponuja nižjo zmogljivost kot RoCE v2.
Izbira prave medsebojne povezave je strateška odločitev, ki je odvisna od potreb po zmogljivosti, proračuna, obstoječe infrastrukture in ciljev glede razširljivosti. To poročilo analizira te tehnologije, jih primerja s standardnim Ethernetom/TCP/IP in raziskuje nove alternative, kot sta CXL in NVLink, da bi pomagalo pri tej ključni odločitvi.
II. Uvod v visokozmogljiva omrežja in RDMA
Danesnji digitalni svet zaznamuje eksponentna rast aplikacij, ki obdelujejo velike količine podatkov, kot so visokozmogljivo računanje (HPC), umetna inteligenca/strojno učenje (AI/ML) in analitika velikih podatkov. Te delovne obremenitve morajo hitro in učinkovito premikati ogromne nabore podatkov med računskimi vozlišči in shrambo. Aplikacije za umetno inteligenco so na primer zelo občutljive na celovitost podatkov in zahtevajo omrežja brez izgub, kjer bi lahko eno izgubljeno sporočilo uničilo celoten cikel učenja. Promet z visoko pasovno širino je prav tako bistven za učinkovito obdelavo podatkov v teh aplikacijah.
Omejitve tradicionalnega Etherneta s TCP/IP za visokozmogljive aplikacije
Čeprav je tradicionalni Ethernet s TCP/IP zanesljiv za splošno omrežno uporabo, ima velike omejitve za visokozmogljive aplikacije:
- Visoka zakasnitev in obremenitev procesorja: Zasnova TCP/IP pošilja podatke skozi več programskih plasti v jedru operacijskega sistema, kar zahteva znatno vključenost procesorja. Ta postopek povzroča precejšnjo zakasnitev (običajno nekaj deset mikrosekund) in močno obremenjuje procesor. Za aplikacije, občutljive na zakasnitev, to postane velika ovira, saj procesor svoj čas porablja za upravljanje omrežnega prometa namesto za izvajanje aplikacije. Ta "procesorski davek" zaradi preklapljanja konteksta in kopiranja podatkov je glavni razlog za sprejetje tehnologij RDMA, ki razbremenijo obdelavo omrežja in sprostijo procesor za naloge aplikacije.
- Omejitve prepustnosti: Učinkovito prepustnost protokola TCP omejuje več dejavnikov, vključno z velikostjo prenosnega okna, velikostjo segmenta in izgubo paketov. Standardna velikost okna TCP (pogosto omejena na 65.535 bajtov) lahko prepreči polno izrabo povezav z visoko pasovno širino, zlasti v omrežjih z višjo zakasnitvijo. Poleg tega osrednji mehanizem zanesljivosti protokola TCP – ponovno pošiljanje paketov – povzroča zamude in porablja dodatno pasovno širino, kar škodi zmogljivosti v preobremenjenih omrežjih ali omrežjih z izgubami.
- Izzivi razširljivosti: Čeprav se TCP/IP dobro prilagaja velikim omrežjem, njegova zasnova daje prednost splošni zanesljivosti pred surovo zmogljivostjo. Zato je manj učinkovit v scenarijih, ki zahtevajo izjemno prepustnost in minimalno zakasnitev, kot so obsežne gruče HPC ali sklepanje z umetno inteligenco v realnem času.
Osnove oddaljenega neposrednega dostopa do pomnilnika (RDMA) in njegove ključne prednosti
Oddaljeni neposredni dostop do pomnilnika (RDMA) je bil razvit za premagovanje omejitev protokola TCP/IP v visokozmogljivih okoljih. Njegove glavne prednosti izhajajo iz obhoda procesorja in operacijskega sistema med prenosi podatkov:
- Neposredni dostop do pomnilnika (Zero-Copy): RDMA prenaša podatke neposredno iz pomnilnika enega računalnika v drugega, ne da bi vključeval procesor ali operacijski sistem katerega koli sistema. Ta pristop "brez kopiranja" (zero-copy) odpravlja vmesne podatkovne medpomnilnike in preklapljanja konteksta, ki so glavni viri dodatne obremenitve pri tradicionalnem omrežju.
- Zmanjšana zakasnitev in obremenitev procesorja: Z obhodom procesorja in operacijskega sistema RDMA drastično zmanjša zakasnitev komunikacije in sprosti procesorske cikle. To neposredno vodi do hitrejših izračunov in boljše obdelave podatkov v realnem času. Zakasnitev aplikacije lahko na primer pade s približno 50 mikrosekund pri TCP/IP na samo 2-5 mikrosekund pri RDMA.
- Večja izraba pasovne širine: Učinkovita pot podatkov in zmanjšana dodatna obremenitev pri RDMA omogočata aplikacijam boljšo izrabo razpoložljive omrežne pasovne širine, kar vodi do večje efektivne prepustnosti.
- Ključne implementacije: Glavne tehnologije RDMA, ki se uporabljajo danes, so InfiniBand, RoCE (različici 1 in 2) in iWARP.
III. RoCE v2: RDMA prek konvergenčnega Etherneta
RoCE v2 je velik korak naprej v visokozmogljivih omrežjih, saj prednosti RDMA razširja na široko uporabljen ekosistem Etherneta.
A. Arhitekturna načela
- Razvoj iz RoCE v1: RoCE v1 je bil protokol drugega sloja (Ethertype 0x8915), kar ga je omejevalo na eno samo ethernetno oddajno domeno in omejevalo njegovo razširljivost. RoCE v2 to rešuje z delovanjem na internetnem sloju. Promet RDMA zapakira v pakete UDP/IP (z uporabo ciljnih vrat UDP 4791), kar omogoča usmerjanje prek omrežij IP tretjega sloja. Ta usmerljivost je ključna izboljšava, ki omogoča uporabo RoCE v2 v obsežnih podatkovnih centrih in oblačnih okoljih.
- Integracija RDMA prek Etherneta: RoCE zagotavlja metodo za izvajanje RDMA prek standardnega omrežja Ethernet. Učinkovito nadomešča omrežni sloj InfiniBand z glavama IP in UDP, hkrati pa ohranja jedro transportnega sloja InfiniBand in protokol RDMA. Ta zasnova omogoča, da RoCE izkoristi obstoječo ethernetno infrastrukturo.
- Format paketa: Paket RoCE v2 vključuje glavo IP in glavo UDP, ki zapakirata transportni protokol RDMA. Čeprav UDP ne zagotavlja vrstnega reda paketov, standard RoCE v2 zahteva, da se paketi z istimi izvornimi vrati in ciljnim naslovom ne smejo preurediti.
- Kompromis "najboljše iz obeh svetov": Zasnova RoCE v2 je strateški kompromis, katerega cilj je zagotoviti visoko zmogljivost RDMA na prilagodljivi, stroškovno učinkoviti in vseprisotni platformi Ethernet. Čeprav ta pristop ponuja široko združljivost, ustvarja ključni izziv: zagotavljanje delovanja brez izgub, ki ga RDMA potrebuje, prek omrežja Ethernet, ki je po naravi nagnjeno k izgubam.
B. Profil zmogljivosti
- Zakasnitev: Vmesniki HCA (Host Channel Adapter) za RoCE lahko dosežejo zelo nizke zakasnitve, celo do 1,3 mikrosekunde. Na nivoju aplikacije RoCE zmanjša zakasnitev na približno 5 mikrosekund, kar je ogromna izboljšava v primerjavi s 50 mikrosekundami, ki so značilne za TCP/IP. Čeprav InfiniBand ponuja nekoliko nižjo izvorno zakasnitev, je zmogljivost RoCE odlična za aplikacije v realnem času.
- Pasovna širina: RoCE v2 podpira visoko pasovno širino s hitrostmi do 400 Gbps na vrata.
- Razbremenitev procesorja: Kot drugi protokoli RDMA tudi RoCE obide procesor pri prenosu podatkov. Ta razbremenitev sprosti dragocene procesorske vire za računsko intenzivne naloge namesto za obdelavo omrežja.
- Delovanje brez izgub: Da bi dosegel zmogljivost InfiniBanda, je RoCE odvisen od omrežja Ethernet brez izgub. To se običajno doseže z implementacijo funkcij DCB (Data Center Bridging), zlasti nadzora pretoka po prioriteti (PFC) in eksplicitnega obveščanja o prezasedenosti (ECN).
C. Infrastruktura in upravljanje
- Strojne/programske zahteve: RoCE deluje s standardno strojno opremo Ethernet, kot so stikala in kabli, kar organizacijam omogoča uporabo obstoječe infrastrukture. Vendar pa na končnih točkah zahteva vmesnike HCA (Host Channel Adapter), ki podpirajo RoCE. Podpora programske opreme je zrela, z implementacijami v Mellanox OFED 2.3+ in integracijo v jedro Linuxa v4.5+.
- Konfiguracija omrežja brez izgub: Čeprav RoCE uporablja standardni Ethernet, je lahko ustvarjanje omrežja DCB brez izgub bolj zapleteno kot postavitev omrežja InfiniBand. Vsaka komponenta, od končnih točk do stikal, mora biti skrbno konfigurirana. To vključuje nastavitev nadzora pretoka po prioriteti (PFC), izboljšane izbire prenosa (ETS) in mehanizmov za obveščanje o prezasedenosti. Za delovanje prek omrežij tretjega sloja morajo biti te lastnosti brez izgub ohranjene prek usmerjevalnikov, pogosto s preslikavo nastavitev prioritet drugega sloja na nastavitve QoS DSCP tretjega sloja.
- Premisleki glede upravljanja: RoCE je mogoče upravljati s standardnimi orodji za Ethernet. Vendar pa je lahko zagotavljanje doslednega delovanja brez izgub in upravljanje prezasedenosti v obsežnih uvedbah RoCE v2 zahtevno in zahteva specializirano strokovno znanje.
- Skriti stroški "stroškovne učinkovitosti": RoCE se pogosto imenuje "stroškovno učinkovit", ker lahko uporablja obstoječo infrastrukturo Ethernet, vendar je to prevelika poenostavitev. Doseganje zmogljivosti, podobne InfiniBandu, zahteva popolnoma konfigurirano omrežje Ethernet brez izgub. Kompleksnost nastavitve funkcij DCB (Data Center Bridging), kot sta PFC in ECN, je lahko veliko večja kot konfiguracija omrežja InfiniBand. Ta kompleksnost vodi do višjih operativnih stroškov za načrtovanje omrežja, odpravljanje težav in upravljanje ter lahko zahteva dražja ethernetna stikala. Posledično lahko začetne prihranke pri strojni opremi z RoCE izničijo ti višji operativni stroški. Za natančno primerjavo je bistvena temeljita analiza celotnih stroškov lastništva (TCO).
D. Ključne aplikacije
RoCE v2 je odlična rešitev za številne aplikacije v podatkovnih centrih in podjetjih. Posebej primeren je za okolja, ki potrebujejo izjemno nizko zakasnitev in visoko prepustnost, kot so delovne obremenitve z umetno inteligenco, visokofrekvenčno trgovanje in analitika v realnem času. Prav tako izboljšuje zmogljivost aplikacij, ki so močno odvisne od podatkovnih baz ali datotečnega V/I. Poleg tega RoCE v2 pomaga pri neprekinjenem poslovanju in okrevanju po nesrečah z omogočanjem hitrega in učinkovitega podvajanja podatkov. Njegova široka uporaba v gručah za učenje umetne inteligence poudarja njegov pomen v sodobnem računalništvu.
IV. InfiniBand: Specializirano visokozmogljivo omrežno ogrodje
InfiniBand je vrhunska visokozmogljiva medsebojna povezava, zasnovana od samega začetka za zagotavljanje neprimerljive hitrosti, minimalne zakasnitve in visoke zanesljivosti v zahtevnih računskih okoljih.
A. Arhitekturna načela
- Izvorni RDMA: InfiniBand je bil zgrajen z RDMA, integriranim v celoten sklad protokolov, od fizičnega sloja navzgor. Ta zasnova od temeljev zagotavlja, da so operacije RDMA zelo učinkovite, saj ustvarja neposredne in zaščitene podatkovne kanale med vozlišči brez vključevanja procesorja.
- Topologija s preklopnim ogrodjem (switched fabric): InfiniBand uporablja topologijo s preklopnim ogrodjem za neposredne povezave od točke do točke med napravami. Arhitektura vključuje vmesnike HCA (Host Channel Adapter) na procesorjih in vmesnike TCA (Target Channel Adapter) na zunanjih napravah, kar omogoča učinkovito komunikacijo.
- Nadzor pretoka na osnovi kreditov: Ključna značilnost InfiniBanda je nadzor pretoka na osnovi kreditov. Ta algoritem na ravni strojne opreme zagotavlja komunikacijo brez izgub, saj zagotavlja, da pošiljatelj pošlje podatke le, če ima prejemnik dovolj prostora v medpomnilniku (kreditov), da jih sprejme. Ta izvorna zanesljivost preprečuje izgubo paketov in ločuje InfiniBand od tehnologij, ki za delovanje brez izgub potrebujejo konfiguracije na višjih slojih.
- Lastniški standardi: InfiniBand sledi lastniškim standardom, ki jih določa združenje InfiniBand Trade Association (IBTA), ustanovljeno leta 1999. V ekosistemu močno prevladuje NVIDIA (prek prevzema podjetja Mellanox), vodilni proizvajalec vmesnikov in stikal InfiniBand.
B. Profil zmogljivosti
- Izjemno nizka zakasnitev: InfiniBand dosledno ponuja najnižjo zakasnitev. Zakasnitve vmesnikov so lahko nizke do 0,5 mikrosekunde, zakasnitev od vrat do vrat stikala pa je okoli 100 nanosekund – znatno nižja od 230 nanosekund primerljivih ethernetnih stikal. Na nivoju aplikacije lahko InfiniBand doseže zakasnitve do 2 mikrosekundi v primerjavi s 50 mikrosekundami pri TCP/IP.
- Zmogljivosti visoke prepustnosti: InfiniBand podpira izjemno visoke hitrosti prenosa podatkov. Sodobne različice, kot sta HDR in NDR, ponujajo do 200 Gbps in 400 Gbps na linijo. Združene povezave lahko dosežejo še višjo prepustnost, do 800 Gbps (NDR) in celo 1,6 Tbps (XDR).
- Učinkovitost procesorja: Ključna moč InfiniBanda je njegova sposobnost zagotavljanja izjemno nizke zakasnitve in izjemno visoke pasovne širine s skoraj ničelno porabo procesorske moči. Ta razbremenitev obdelave omrežja je ključna prednost za računsko intenzivne delovne obremenitve.
- Zmogljivost po zasnovi proti zmogljivosti po konfiguraciji: InfiniBand in RoCE imata temeljno razliko v pristopu. InfiniBand je bil zasnovan od temeljev za RDMA, pri čemer so bili njegovi fizični in transportni sloji zasnovani za zanesljivost na ravni strojne opreme, vključno z izvornim algoritmom na osnovi kreditov za komunikacijo brez izgub. Nasprotno pa RoCE deluje na standardnem Ethernetu in se zanaša na konfiguracijo funkcij, kot sta nadzor pretoka po prioriteti (PFC) in eksplicitno obveščanje o prezasedenosti (ECN), za ustvarjanje omrežja brez izgub. To pomeni, da InfiniBand zagotavlja visoko zmogljivost takoj po namestitvi, medtem ko je zmogljivost RoCE odvisna od kakovosti osnovne konfiguracije Etherneta.
C. Infrastruktura in upravljanje
- Namenska strojna oprema: InfiniBand zahteva specializirano strojno opremo, vključno z namenskimi vmesniki HCA, stikali, usmerjevalniki in lastniškimi kabli. To običajno pomeni višjo začetno naložbo v primerjavi z rešitvami na osnovi Etherneta.
- Centralizirano upravljanje: Omrežja InfiniBand upravlja centralni upravitelj podomrežja (Subnet Manager - SM), ki izračunava in distribuira tabele za posredovanje ter upravlja konfiguracije, kot so particije in kakovost storitev (QoS). Ta centraliziran pristop lahko po začetni nastavitvi poenostavi upravljanje v velikih gručah.
- Specializirano strokovno znanje: Uvajanje in vzdrževanje omrežij InfiniBand običajno zahteva specializirano znanje, kar lahko poveča operativne stroške in ustvari strmejšo učno krivuljo za osebje IT.
- Ekosistem: Ekosistem InfiniBand je zrel, vendar v njem prevladuje NVIDIA/Mellanox.
D. Ključne aplikacije
InfiniBand je industrijski standard za okolja visokozmogljivega računanja (HPC) in najhitreje rastoča medsebojna povezava za te aplikacije. Je primarna tehnologija, ki jo priporoča IBTA. Njegova izjemno nizka zakasnitev in visoka pasovna širina sta bistveni za zahtevne delovne obremenitve, kot so obsežno učenje modelov AI/ML, analitika velikih podatkov in masivne operacije s podatkovnimi bazami. Ključnega pomena je tudi za velike simulacije (npr. napovedovanje vremena) in visokofrekvenčne finančne storitve, kjer sta hitrost in celovitost podatkov ključnega pomena. Junija 2022 je 62 % od 100 najboljših superračunalnikov na svetu uporabljalo InfiniBand.
V. iWARP: RDMA prek standardnega TCP/IP
iWARP (Internet Wide Area RDMA Protocol) je še ena metoda za implementacijo RDMA, ki je znana po uporabi standardnega nabora protokolov TCP/IP.
A. Arhitekturna načela
- RDMA prek TCP/IP: iWARP je protokol, ki implementira RDMA prek standardnih omrežij IP. Za razliko od RoCE, ki uporablja UDP, je iWARP zgrajen na zanesljivih transportnih protokolih, kot sta TCP in SCTP.
- Ključne komponente: Delovanje iWARP je odvisno od več komponent. Protokol za neposredno postavitev podatkov (DDP) omogoča prenos brez kopiranja z neposrednim umeščanjem podatkov v pomnilnik aplikacije. Protokol za oddaljeni neposredni dostop do pomnilnika (RDMAP) zagotavlja storitve za operacije branja in pisanja RDMA. Za omogočanje DDP prek TCP je potreben poseben prilagoditveni sloj, Marker PDU Aligned (MPA) framing.
- Zanesljivost: Edinstvena značilnost iWARP je, da njegovo zanesljivost zagotavlja osnovni protokol TCP. To se razlikuje od RoCE v2, ki uporablja UDP in za zanesljivost potrebuje zunanje mehanizme, kot je Data Center Bridging (DCB). Posledično iWARP podpira samo zanesljivo, povezano komunikacijo.
B. Profil zmogljivosti
- Primerjalna zakasnitev in prepustnost: Čeprav ima iWARP nižjo zakasnitev kot tradicionalni TCP/IP, je njegova zmogljivost na splošno slabša od RoCE. Leta 2011 je bila najnižja zakasnitev vmesnika HCA za iWARP 3 mikrosekunde, medtem ko so vmesniki HCA za RoCE dosegli 1,3 mikrosekunde. Primerjalni testi dosledno kažejo, da RoCE dostavlja sporočila veliko hitreje kot iWARP, s prepustnostjo, ki je več kot 2-krat višja pri 40GbE in 5-krat višja pri 10GbE.
- Razbremenitev procesorja: Kot drugi protokoli RDMA tudi iWARP zmanjšuje obremenitev procesorja z omogočanjem neposrednih prenosov pomnilnika. Uporablja lahko mehanizme za razbremenitev TCP (TCP Offload Engines - TOE) s strojno opremo RDMA za doseganje rezultatov brez kopiranja in dodatno zmanjšanje vključenosti procesorja.
C. Infrastruktura in upravljanje
- Združljivost s standardnim Ethernetom: Glavna prednost iWARP je njegova sposobnost delovanja prek standardne infrastrukture Ethernet z minimalnimi spremembami obstoječega omrežja. To organizacijam omogoča, da izkoristijo svoje trenutne naložbe.
- Strojne zahteve: Kljub združljivosti s standardnimi ethernetnimi stikali iWARP na končnih točkah še vedno zahteva omrežne kartice, ki podpirajo iWARP.
- Vidiki integracije: iWARP je integriran v glavne operacijske sisteme, kot sta Microsoft Windows Server in sodobna jedra Linuxa. To podpira aplikacije, kot so SMB Direct, iSCSI Extensions for RDMA (iSER) in Network File System over RDMA (NFS over RDMA).
- Izzivi pri upravljanju: Upravljanje prometa iWARP je lahko težavno. Deli si prostor vrat s TCP, kar zaplete upravljanje pretoka in otežuje identifikacijo prometa RDMA. Na splošno velja, da je iWARP težje upravljati kot RoCE.
D. Tržna relevantnost
- Omejena uporaba: iWARP je "neobičajna" ali "manj pogosto uporabljena" implementacija RDMA v primerjavi z InfiniBand in RoCE v2. Njegove rešitve so imele "omejen uspeh" zaradi izzivov pri implementaciji in uvajanju.
- Paradoks odvisnosti od TCP: Odločitev pri zasnovi iWARP, da se RDMA postavi nad TCP, zagotavlja vgrajeno zanesljivost in združljivost, vendar paradoksalno preprečuje, da bi v celoti dosegel ključne prednosti RDMA. Inherentna dodatna obremenitev protokola TCP, tudi z razbremenitvijo strojne opreme, se zdi, da preprečuje iWARP doseganje izjemno nizke zakasnitve in visoke prepustnosti, ki ju dosegata InfiniBand ali RoCE. Ta kompromis glede zmogljivosti je privedel do njegove omejene tržne uporabe.
VI. Primerjalna analiza: RoCE v2 proti InfiniBand proti iWARP proti standardnemu Ethernetu
Podrobna primerjava zmogljivosti, infrastrukture in operativnih metrik je ključna za izbiro prave visokozmogljive medsebojne povezave.
A. Primerjalni testi zmogljivosti
Zmogljivost teh medsebojnih povezav se močno razlikuje, zlasti pri zakasnitvi, pasovni širini in porabi procesorske moči.
- Zakasnitev:
- InfiniBand: Ponuja najnižjo zakasnitev. Zakasnitev od vrat do vrat stikala je okoli 100 nanosekund, medtem ko je zakasnitev vmesnika nizka do 0,5 do 1,3 mikrosekunde. Zakasnitev na nivoju aplikacije je lahko nizka do 2 mikrosekundi.
- RoCE v2: Zagotavlja izjemno nizko zakasnitev. Zakasnitev ethernetnega stikala je okoli 230 nanosekund, medtem ko je zakasnitev HCA lahko nizka do 1,3 mikrosekunde. Zakasnitev na nivoju aplikacije je običajno okoli 5 mikrosekund.
- iWARP: Ima višjo zakasnitev kot RoCE, z zakasnitvijo HCA okoli 3 mikrosekund (podatki iz leta 2011). Dosledno deluje slabše od RoCE.
- Standardni TCP/IP: Ima najvišjo zakasnitev, z enosmerno zakasnitvijo od 10 do 55 milisekund. Zakasnitev na nivoju aplikacije je običajno okoli 50 mikrosekund.
- Pasovna širina:
- InfiniBand: Podpira zelo visoko pasovno širino. Sodobne različice, kot je NDR, ponujajo do 400 Gbps na vrata, XDR pa doseže do 800 Gbps. Prihodnji GDR naj bi dosegel 1,6 Tbps.
- RoCE v2: Zmožen visoke pasovne širine, podpira do 400 Gbps na vrata.
- iWARP: Na splošno ima nižjo prepustnost kot RoCE.
- Standardni TCP/IP: Prepustnost je pogosto omejena z dodatno obremenitvijo protokola in ponovnimi pošiljanji, kar otežuje učinkovito uporabo povezav z visoko pasovno širino.
- Razbremenitev procesorja:
- InfiniBand, RoCE v2, iWARP: Vse tri tehnologije RDMA razbremenijo znatno delo procesorja z obhodom operacijskega sistema, kar sprosti procesorske vire za druge naloge.
- Standardni TCP/IP: Povzroča visoko obremenitev procesorja, ker je jedro močno vključeno v obdelavo podatkov.
- Mehanizem brez izgub:
- InfiniBand: Ima izvorni, na strojni opremi temelječ nadzor pretoka na osnovi kreditov, ki zagotavlja komunikacijo brez izgub.
- RoCE v2: Zanaša se na konfiguracijo Etherneta brez izgub, z uporabo funkcij Data Center Bridging (DCB), kot sta PFC in ECN. Vsebuje tudi zanesljiv mehanizem dostave od konca do konca s ponovnimi pošiljanji na podlagi strojne opreme.
- iWARP: Uporablja vgrajeni zanesljivi transport protokola TCP za celovitost podatkov.
- Standardni TCP/IP: Uporablja model dostave po najboljših močeh (best-effort), pri čemer se za zagotavljanje zanesljivosti zanaša na ponovna pošiljanja na višjih slojih, kar dodaja zakasnitev.
Naslednja tabela povzema značilnosti zmogljivosti:
| Značilnost | InfiniBand | RoCE v2 | iWARP | Standardni Ethernet/TCP/IP |
|---|---|---|---|---|
| Osnovna tehnologija | Izvorni RDMA | RDMA prek Etherneta (UDP/IP) | RDMA prek Etherneta (TCP/IP) | Tradicionalni večplastni protokol |
| Tipična zakasnitev aplikacije (µs) | 2 | 5 | >3 (HCA 2011) | 50 |
| Zakasnitev od vrat do vrat stikala (ns) | 100 | 230 | Ni relevantno (odvisno od Etherneta) | Običajno višja, spremenljiva |
| Maks. pasovna širina (Gbps na vrata/povezavo) | 400 (NDR), 800 (XDR), 1.6T (GDR) | 400 | Na splošno nižja kot pri RoCE | 400+ (a omejena z obremenitvijo protokola) |
| Obremenitev procesorja | Skoraj ničelna | Zelo nizka | Nizka | Visoka |
| Mehanizem brez izgub | Izvorni nadzor pretoka na osnovi kreditov | Zahteva Ethernet brez izgub (PFC, ECN) | Zanesljivi transport protokola TCP | Po najboljših močeh, zanaša se na ponovna pošiljanja |
| Usmerljivost (L2/L3) | L3 (prek upravitelja podomrežja) | L3 (Usmerljiv RoCE) | L3 | L3 (Standardno IP usmerjanje) |
B. Infrastruktura in ekosistem
- Odvisnosti od strojne opreme:
- InfiniBand: Zahteva celoten nabor specializirane strojne opreme, vključno z vmesniki HCA, stikali in lastniškimi kabli InfiniBand.
- RoCE v2: Zahteva vmesnike HCA, ki podpirajo RoCE, vendar deluje prek standardnih ethernetnih stikal in kablov, kar omogoča integracijo z obstoječimi omrežji.
- iWARP: Zahteva omrežne kartice, ki podpirajo iWARP, vendar lahko uporablja standardna ethernetna stikala.
- Standardni Ethernet: Uporablja široko dostopne, potrošniške omrežne kartice in stikala Ethernet.
- Vezanost na ponudnika (Vendor Lock-in):
- InfiniBand: Ekosistem je omejen in v njem prevladuje Mellanox (NVIDIA), kar lahko povzroča skrbi glede vezanosti na ponudnika.
- RoCE v2: Prednost je velik in konkurenčen ekosistem Etherneta z več ponudniki. Nekateri ponujajo univerzalne omrežne kartice RDMA, ki podpirajo tako RoCE kot iWARP, kar zmanjšuje vezanost.
- iWARP: Prav tako ima koristi od širokega ekosistema Etherneta, s podporo ponudnikov, kot sta Intel in Chelsio.
- Interoperabilnost:
- InfiniBand: Ker gre za lastniški standard, se morajo vse komponente držati specifikacij IBTA, da se zagotovi njihovo medsebojno delovanje.
- RoCE v2: Njegova osnova na standardnem Ethernetu omogoča širšo interoperabilnost in lažjo integracijo z obstoječimi omrežji.
- iWARP: Temelji na standardnih RFC-jih IETF za TCP/IP, kar zagotavlja visoko združljivost znotraj standardnih omrežij IP.
C. Stroškovna učinkovitost
- Začetna naložba:
- InfiniBand: Običajno zahteva višjo začetno naložbo zaradi specializirane strojne opreme in licenciranja. Pri velikih gručah za umetno inteligenco so lahko stikala InfiniBand bistveno dražja od stikal RoCE.
- RoCE v2: Pogosto je stroškovno učinkovitejša možnost, ker se lahko integrira z obstoječim Ethernetom, kar zmanjša stroške nove strojne opreme. Prihranki pri stikalih za velike gruče za umetno inteligenco so lahko znatni (od 49 % do 70 % v primerjavi z InfiniBandom).
- iWARP: Uporablja standardna ethernetna stikala, vendar zahteva specializirane vmesnike, kar je lahko še vedno opazen strošek.
- Standardni Ethernet: Na splošno je najcenejša možnost zaradi potrošniške strojne opreme.
- Celotni stroški lastništva (TCO):
- InfiniBand: Ponavadi ima višje celotne stroške lastništva zaradi specializirane strojne opreme, vzdrževanja in potrebe po usposabljanju osebja za lastniško tehnologijo.
- RoCE v2: Lahko ima nižje celotne stroške lastništva, vendar je to pogojno. Kompleksnost konfiguriranja in vzdrževanja omrežnega ogrodja Ethernet brez izgub lahko znatno poveča operativne stroške. Čeprav so lahko začetni stroški strojne opreme nižji, lahko specializirano znanje in napor, potreben za načrtovanje, odpravljanje težav in vzdrževanje, izničita te prihranke. Zato je "stroškovna učinkovitost" odvisna tako od cene strojne opreme kot od strokovnega znanja in bremena upravljanja v organizaciji.
- iWARP: Izzivi pri integraciji in upravljanju lahko vplivajo na njegove celotne stroške lastništva.
Naslednja tabela ponuja primerjalni pregled infrastrukture in stroškovnih vidikov:
| Značilnost | InfiniBand | RoCE v2 | iWARP | Standardni Ethernet/TCP/IP |
|---|---|---|---|---|
| Potrebna omrežna strojna oprema | Namenske omrežne kartice IB, stikala IB, kabli IB | Omrežne kartice, ki podpirajo RoCE, standardna stikala/kabli Ethernet | Omrežne kartice, ki podpirajo iWARP, standardna stikala/kabli Ethernet | Standardne omrežne kartice Ethernet, stikala/kabli Ethernet |
| Omrežna združljivost | Lastniški (standard IBTA) | Standardni Ethernet (IEEE) | Standardni Ethernet (RFC-ji IETF) | Standardni Ethernet (IEEE) |
| Kompleksnost upravljanja | Težko (Specializiran SM) | Težko (Konfiguracija Etherneta brez izgub) | Težje od RoCE | Enostavno |
| Začetni stroški strojne opreme (relativno) | Visoki | Zmerni (izkorišča obstoječe) | Zmerni (specializirane omrežne kartice) | Nizki |
| Celotni stroški lastništva (relativno) | Višji | Nižji (pogojno glede na upravljanje) | Spremenljivi (izzivi integracije) | Najnižji |
| Ekosistem ponudnikov | Omejen (prevladuje NVIDIA/Mellanox) | Širok (več ponudnikov Etherneta) | Širok (več ponudnikov Etherneta) | Zelo širok |
D. Razširljivost in prilagodljivost
- Zmogljivosti usmerjanja:
- InfiniBand: Uporablja preklopno ogrodje z usmerjanjem, ki ga centralno upravlja upravitelj podomrežja (SM). Je zelo razširljiv in podpira gruče z več kot 100.000 vozlišči.
- RoCE v2: Njegovo pakiranje v UDP/IP omogoča usmerjanje prek omrežij IP tretjega sloja, zaradi česar je razširljiv v velikih omrežjih in oblačnih okoljih. Podpira tudi ECMP za učinkovito uravnoteženje obremenitve.
- iWARP: Je usmerljiv prek omrežij IP.
- Standardni Ethernet: Zelo razširljiv in prilagodljiv, vendar lahko za učinkovitost na ravni HPC zahteva napredne konfiguracije, kot so arhitekture spine-leaf.
- Omrežne topologije:
- InfiniBand: Optimiziran za gruče HPC/AI, podpira visokozmogljive topologije, kot so Fat Tree, Dragonfly+ in večdimenzionalni Torus.
- RoCE v2: Zaradi usmerjanja na osnovi IP je prilagodljiv skoraj vsaki omrežni topologiji.
- Standardni Ethernet: Podpira širok nabor topologij, vključno z zvezdo in mrežo.
E. Zanesljivost in nadzor prezasedenosti
- Zanesljivost:
- InfiniBand: Zagotavlja izvorno, na strojni opremi temelječo zanesljivost s svojim nadzorom pretoka na osnovi kreditov, kar zagotavlja komunikacijo brez izgub.
- RoCE v2: Zanaša se na konfiguracijo Etherneta brez izgub z uporabo PFC in ETS. Vključuje tudi zanesljiv mehanizem dostave od konca do konca s ponovnim pošiljanjem paketov na osnovi strojne opreme.
- iWARP: Prednost je inherentna zanesljivost protokola TCP, ki zagotavlja popravljanje napak in ponovna pošiljanja.
- Standardni TCP/IP: Osredotoča se na zanesljivost s ponovnimi pošiljanji, kar lahko doda znatno zakasnitev in zmanjša prepustnost.
- Nadzor prezasedenosti:
- InfiniBand: Določa lastne mehanizme za nadzor prezasedenosti, ki temeljijo na označevanju FECN/BECN.
- RoCE v2: Implementira protokol za nadzor prezasedenosti z uporabo bitov IP ECN in paketov za obveščanje o prezasedenosti (CNP). Uporabljajo se tudi industrijske prakse, kot je DCQCN.
- iWARP: Zanaša se na uveljavljene algoritme za nadzor prezasedenosti protokola TCP.
F. Primernost za aplikacije
- InfiniBand: Idealna izbira za okolja, ki potrebujejo najvišjo prepustnost podatkov in najnižjo zakasnitev. To vključuje znanstvene raziskave, finančno modeliranje, obsežne gruče HPC in najzahtevnejše delovne obremenitve učenja AI/ML.
- RoCE v2: Priljubljen pri podjetjih, ki želijo uporabiti obstoječo infrastrukturo Ethernet, hkrati pa potrebujejo visoko zmogljivost. Dobro je primeren za omrežja za shranjevanje, analitiko v realnem času in oblačne storitve, saj ponuja ravnovesje med zmogljivostjo in stroški.
- iWARP: Se lahko upošteva za nišne aplikacije, kjer je obstoječa infrastruktura TCP/IP stroga zahteva in izjemno nizka zakasnitev ni glavna prednostna naloga. Primeren je za aplikacije, kot so NVMeoF, iSER, SMB Direct in NFS over RDMA, ali kot poceni možnost za testna okolja.
- Standardni Ethernet/TCP/IP: Ostaja najboljša izbira za splošno omrežno uporabo, kot so podjetniška omrežja LAN in oblačna infrastruktura, kjer ekstremna zmogljivost HPC/AI ni glavni cilj.
- Trilemma zmogljivost-stroški-kompleksnost: Ta analiza razkriva temeljni kompromis pri izbiri medsebojne povezave: trilemma med zmogljivostjo, stroški in kompleksnostjo. InfiniBand ponuja vrhunsko zmogljivost in izvorno zanesljivost, vendar po višji ceni. RoCE v2 zagotavlja skoraj enako zmogljivost kot InfiniBand na Ethernetu, kar lahko zniža stroške strojne opreme, vendar doda znatno kompleksnost konfiguracije. iWARP ponuja RDMA prek TCP, vendar z nižjo zmogljivostjo. Standardni Ethernet je stroškovno učinkovit, vendar nima zmogljivosti za zahtevne delovne obremenitve. Ene same "najboljše" rešitve ni; prava izbira zahteva uravnoteženje teh treh dejavnikov glede na specifične potrebe in zmožnosti.
Naslednja tabela prikazuje primernost uporabe za vsako tehnologijo:
| Tehnologija | Primarni primeri uporabe | Najbolj primerno za | Manj primerno za |
|---|---|---|---|
| InfiniBand | HPC, učenje AI/ML, analitika velikih podatkov, finančne storitve (arbitraža) | Okolja, ki zahtevajo absolutno najnižjo zakasnitev, najvišjo pasovno širino in izvorno zagotovljeno delovanje brez izgub | Stroškovno občutljiva splošna podjetniška omrežja, okolja brez specializiranega strokovnega znanja IT |
| RoCE v2 | Podatkovni centri, oblačne storitve, omrežja za shranjevanje, analitika v realnem času, sklepanje AI/ML | Organizacije, ki izkoriščajo obstoječo infrastrukturo Ethernet za visoko zmogljivost; ravnovesje med stroški in zmogljivostjo | Okolja, kjer so izvorna jamstva brez izgub nepogrešljiva brez obsežnega strokovnega znanja o konfiguraciji |
| iWARP | NVMeoF, iSER, SMB Direct, NFS over RDMA, testna/razvojna okolja | Specifične aplikacije, ki zahtevajo RDMA prek obstoječega TCP/IP, kjer vrhunska zmogljivost ni ključna | Obsežne gruče HPC/AI, na zakasnitev občutljive aplikacije v realnem času |
| Standardni Ethernet/TCP/IP | Splošna podjetniška omrežja, LAN, internetna povezljivost, oblačna infrastruktura | Vseprisotna, stroškovno učinkovita in prilagodljiva splošna omrežja | Visokozmogljivo računanje, učenje AI/ML in druge na zakasnitev občutljive, procesorsko intenzivne delovne obremenitve |
VII. Nastajajoče visokozmogljive medsebojne povezave in prihodnji trendi
Področje visokozmogljivih omrežij se nenehno spreminja, kar poganjajo delovne obremenitve z velikimi količinami podatkov in potreba po večji učinkovitosti. Poleg uveljavljenih tehnologij RDMA nove medsebojne povezave in trendi oblikujejo prihodnost podatkovnih centrov.
A. Compute Express Link (CXL)
CXL je sodobna medsebojna povezava, zgrajena na fizičnem sloju PCIe, zasnovana za splošne računalniške sisteme. Njen glavni cilj je omogočiti hitro in brezhibno komunikacijo med procesorji in pospeševalniki, kot so GPE in FPGA.
Ključne značilnosti CXL vključujejo hiter prenos podatkov, široko združljivost in učinkovito souporabo pomnilnika prek koherence predpomnilnika. Podpira tri vrste naprav (za pospeševalnike, koherentne naprave s predpomnilnikom in razširitve pomnilnika) ter prilagodljive topologije. CXL/PCIe Gen5 ponuja najvišjo prepustnost 512 Gbps z zakasnitvijo okoli 500 nanosekund. Medtem ko ima InfiniBand nižjo zakasnitev (okoli 100 nanosekund), je CXL boljši za dostop do pomnilnika z nizko zakasnitvijo, kjer je koherenca predpomnilnika ključnega pomena.
Velik razvoj je bila združitev konzorcijev Gen-Z in CXL leta 2022, kar postavlja CXL kot edini industrijski standard za ta razred medsebojnih povezav, osredotočenih na pomnilnik.
CXL predstavlja premik od tradicionalnega omrežja od vozlišča do vozlišča (kot sta RoCE in InfiniBand) k koherenci pomnilnika in razgradnji virov. To pomeni, da lahko za določene delovne obremenitve CXL postane primarna medsebojna povezava, ki dopolnjuje ali zmanjšuje potrebo po tradicionalnih omrežnih ogrodjih.
B. NVLink
NVLink je NVIDIA-ina lastniška medsebojna povezava z visoko pasovno širino in nizko zakasnitvijo, zasnovana za neposredno komunikacijo med GPE-ji ter med GPE-ji in procesorji znotraj njenih pospešenih računskih platform.
NVLink je ključni del NVIDIA-inih rešitev za umetno inteligenco in HPC, kot so njene arhitekture GB200 in GB300. Ključnega pomena je za skaliranje učenja modelov umetne inteligence z zagotavljanjem izjemno hitrih prenosov podatkov med GPE-ji.
NVLink kaže trend k vertikalni integraciji in specializirani zmogljivosti. Njegova lastniška narava je v nasprotju z odprtimi standardi, kot sta RoCE ali InfiniBand. Ta zasnova maksimizira zmogljivost znotraj sklada strojne opreme enega samega ponudnika. Medtem ko InfiniBand in RoCE skrbita za splošno omrežje med vozlišči, NVLink optimizira komunikacijo znotraj in med sistemi GPE, kar ustvarja večplastno arhitekturo medsebojnih povezav, kjer različne tehnologije služijo različnim potrebam.
C. Prihodnje hitrosti Etherneta
Ethernet se je razvil od 10 Mbps do 400 Gbps, razvoj pa se nadaljuje s standardi 800GbE in 1.6TbE na obzorju. Te višje hitrosti bodo bistvene za aplikacije naslednje generacije, kot so kvantno računanje, napredna umetna inteligenca in poglobljene tehnologije.
Nenehno povečevanje hitrosti Etherneta neposredno koristi RoCE. Ker RoCE temelji na Ethernetu, samodejno pridobiva s temi napredki, kar mu pomaga ostati konkurenčen InfiniBandu. Rast oblačnih storitev že pospešuje uvajanje 200GbE in 400GbE, sledita pa 800GbE in 1.6TbE.
Povezanost med Ethernetom in RoCE je tesna. Ko se hitrosti Etherneta povečujejo, postaja RoCE še močnejši tekmec za visokozmogljive podatkovne centre, zlasti za organizacije, ki želijo izkoristiti svoje obstoječe naložbe v Ethernet in se izogniti lastniškim ekosistemom.
D. Razgrajeno računanje in fotonika
- Razgrajeno računanje (Disaggregated Computing): Ta nov pristop si prizadeva izboljšati učinkovitost podatkovnih centrov z ločevanjem virov, kot so računanje, shranjevanje in pomnilnik, od tradicionalnih strežnikov. Ti viri se nato ponovno sestavijo v prilagodljive sklope, povezane z naprednimi omrežji. Ključni rezultat je, da komunikacija, ki je nekoč potekala znotraj strežnika, zdaj poteka prek omrežja, kar dramatično poveča obremenitev in naredi izjemno nizko zakasnitev ključnega pomena. Ta trend krepi potrebo po visokozmogljivih medsebojnih povezavah, kot sta RoCE in InfiniBand, ter spodbuja razvoj novih, kot je CXL.
- Fotonika v omrežjih podatkovnih centrov: Silicijeva fotonika integrira optične komponente na silicijeve čipe, kar omogoča visokohitrostne optične medsebojne povezave z nizko porabo energije. Ta tehnologija ponuja veliko hitrejše prenose podatkov (prek 100 Gbps), nižjo zakasnitev in boljšo energetsko učinkovitost kot tradicionalni baker. Postaja bistvena za izpolnjevanje rastočih prometnih zahtev v podatkovnih centrih in omogočanje naslednje generacije visokohitrostnega Etherneta.
Odnos med temi trendi je simbiotičen. Razgrajene arhitekture zahtevajo napredna omrežja, ki jih zagotavljajo medsebojne povezave, kot so RoCE, InfiniBand in CXL. Po drugi strani pa bo doseganje potrebnih hitrosti za te medsebojne povezave, zlasti za prihodnje standarde 800GbE in 1.6TbE, odvisno od tehnologij, kot je silicijeva fotonika.
VIII. Priporočila in zaključek
Izbira visokozmogljive medsebojne povezave je ključna strateška odločitev, ki se mora uskladiti s specifičnimi potrebami, proračunom, infrastrukturo in dolgoročno vizijo organizacije.
- Za maksimalno surovo zmogljivost in ključne naloge HPC/AI: InfiniBand je jasen zlati standard. Njegov izvorni RDMA, nadzor pretoka na osnovi kreditov in namenska zasnova zagotavljajo najnižjo zakasnitev in najvišjo prepustnost z zagotovljenim delovanjem brez izgub. Organizacije s proračunom in strokovnim znanjem bi morale izbrati InfiniBand za obsežne gruče, kjer šteje vsaka mikrosekunda.
- Za visoko zmogljivost s stroškovno učinkovitostjo in integracijo Etherneta: RoCE v2 je močna in vse bolj priljubljena alternativa. Ponuja velike izboljšave zmogljivosti v primerjavi s TCP/IP in se lahko približa zmogljivosti InfiniBanda z uporabo obstoječe infrastrukture Ethernet. Idealen je za organizacije, ki nadgrajujejo svoje podatkovne centre brez popolne prenove. Vendar ta izbira zahteva zavezanost k skrbni konfiguraciji in upravljanju omrežnega ogrodja Ethernet brez izgub.
- Za nišne aplikacije ali obstoječa okolja RDMA prek TCP: iWARP je lahko primeren v posebnih primerih, zlasti kadar je uporaba obstoječe infrastrukture TCP/IP nujna in vrhunska zmogljivost ni glavni cilj. Vendar pa njegova nižja zmogljivost in večja kompleksnost upravljanja omejujeta njegovo uporabo v sodobnih visokozmogljivih uvedbah.
- Za splošno omrežno uporabo: Standardni Ethernet/TCP/IP ostaja najpogostejša in stroškovno najučinkovitejša izbira za okolja brez ekstremnih zahtev po zmogljivosti. Njegova enostavna uporaba in potrošniška strojna oprema ga naredita popolnega za splošna podjetniška omrežja, LAN in standardno oblačno infrastrukturo.
- Upoštevanje nastajajočih tehnologij za prihodnost: Organizacije bi morale spremljati razvoj CXL za pomnilniško osredotočene in razgrajene arhitekture, saj dopolnjuje tradicionalna omrežna ogrodja z optimizacijo združevanja virov. Podobno je NVLink ključen za optimizacijo komunikacije znotraj sistemov NVIDIA z veliko GPE-ji. Te tehnologije kažejo na diverzifikacijo medsebojnih povezav za različne plasti računske hierarhije. Poleg tega bosta razvoj Etherneta 800GbE in 1.6TbE, skupaj z napredkom v fotoniki, še naprej krepila položaj RoCE kot še močnejše možnosti.
Za zaključek, področje visokozmogljivih omrežij je kompleksno, poganjajo ga zahteve umetne inteligence, HPC in premik k razgrajenemu računanju. Medtem ko InfiniBand vodi v absolutni zmogljivosti za specializirana okolja, RoCE v2 zagotavlja močno in prilagodljivo alternativo, ki premošča prednosti RDMA z vseprisotnostjo Etherneta. Pojav CXL in NVLink kaže na strateško diverzifikacijo medsebojnih povezav, ki optimizirajo različne komunikacijske plasti. Optimalna rešitev bo vedno strateško ravnovesje med zahtevami po zmogljivosti, stroški, obstoječo infrastrukturo in vizijo, usmerjeno v prihodnost.




