Sveobuhvatna analiza visokoučinkovitih međuspojeva: RoCE v2, InfiniBand, iWARP i nove alternative za moderne podatkovne centre

Kategorizirano kao Hardware
Save and Share:

I. Sažetak

Moderni podatkovni centri moraju podržavati zahtjevna radna opterećenja poput računarstva visokih performansi (HPC), umjetne inteligencije/strojnog učenja (AI/ML) i analitike velikih podataka (Big Data). Te aplikacije zahtijevaju iznimno nisku latenciju, visoku propusnost i minimalnu upotrebu CPU-a. Tradicionalni mrežni protokoli poput TCP/IP-a ne mogu zadovoljiti te potrebe zbog velikog opterećenja i latencije.

Izravan daljinski pristup memoriji (RDMA) ključna je tehnologija koja omogućuje međuspojeve visokih performansi. RDMA omogućuje umreženim računalima prijenos podataka izravno između svojih memorija bez uključivanja operacijskih sustava ili CPU-a (izravan prijenos iz memorije u memoriju). Taj proces drastično smanjuje latenciju i opterećenje CPU-a.

  • InfiniBand je namjenski izgrađena, proprietarna mreža dizajnirana za najviše moguće performanse i inherentno bez gubitaka.
  • RoCE v2 (RDMA over Converged Ethernet) primjenjuje prednosti RDMA preko standardnog Etherneta, nudeći usmjerivu i isplativiju opciju, ali zahtijeva specifične konfiguracije kako bi radila bez gubitaka.
  • iWARP je još jedno rješenje RDMA preko Etherneta temeljeno na TCP-u, ali je općenito manje uobičajeno i nudi niže performanse od RoCE v2.

Odabir pravog međuspoja strateška je odluka koja ovisi o potrebama za performansama, proračunu, postojećoj infrastrukturi i ciljevima skalabilnosti. Ovo izvješće analizira te tehnologije, uspoređuje ih sa standardnim Ethernetom/TCP/IP-om i istražuje nove alternative poput CXL-a i NVLinka kako bi pomoglo u donošenju te ključne odluke.

II. Uvod u umrežavanje visokih performansi i RDMA

Današnji digitalni svijet karakterizira eksponencijalni rast aplikacija s velikom količinom podataka, poput računarstva visokih performansi (HPC), umjetne inteligencije/strojnog učenja (AI/ML) i analitike velikih podataka. Ta radna opterećenja moraju brzo i učinkovito premještati goleme skupove podataka između računalnih čvorova i pohrane. Primjerice, AI aplikacije iznimno su osjetljive na integritet podataka i zahtijevaju mreže bez gubitaka, gdje bi jedna izgubljena poruka mogla uništiti cijeli proces treniranja. Promet visoke propusnosti također je ključan kako bi te aplikacije učinkovito obrađivale podatke.

Ograničenja tradicionalnog TCP/IP Etherneta za aplikacije visokih performansi

Iako je pouzdan za općenito umrežavanje, tradicionalni TCP/IP Ethernet ima značajna ograničenja za aplikacije visokih performansi:

  • Visoka latencija i opterećenje CPU-a: Dizajn TCP/IP-a šalje podatke kroz više softverskih slojeva u jezgri operacijskog sustava, što zahtijeva značajno sudjelovanje CPU-a. Taj proces dodaje znatnu latenciju (obično deseci mikrosekundi) i stavlja veliko opterećenje na CPU. Za aplikacije osjetljive na latenciju, to postaje glavno usko grlo jer CPU troši vrijeme na upravljanje mrežnim prometom umjesto na izvršavanje aplikacije. Ovo „opterećenje CPU-a“ zbog promjene konteksta i kopiranja podataka primarni je razlog za usvajanje RDMA tehnologija, koje rasterećuju mrežnu obradu i oslobađaju CPU za aplikacijske zadatke.
  • Ograničenja propusnosti: Nekoliko čimbenika ograničava efektivnu propusnost TCP-a, uključujući veličinu prijenosnog prozora, veličinu segmenta i gubitak paketa. Standardna veličina TCP prozora (često ograničena na 65.535 bajtova) može spriječiti puno korištenje veza visoke propusnosti, posebno na mrežama s višom latencijom. Osim toga, temeljni mehanizam pouzdanosti TCP-a — ponovno slanje paketa — uvodi kašnjenja i koristi dodatnu propusnost, što šteti performansama u zagušenim mrežama ili mrežama s gubicima.
  • Izazovi skalabilnosti: Iako se TCP/IP dobro skalira za velike mreže, njegov dizajn daje prednost općoj pouzdanosti nad sirovim performansama. To ga čini manje učinkovitim za scenarije koji zahtijevaju ekstremnu propusnost i minimalnu latenciju, poput velikih HPC klastera ili AI zaključivanja u stvarnom vremenu.

Osnove izravnog daljinskog pristupa memoriji (RDMA) i njegove ključne prednosti

Izravan daljinski pristup memoriji (RDMA) razvijen je kako bi se prevladala ograničenja TCP/IP-a u okruženjima visokih performansi. Njegove glavne prednosti proizlaze iz zaobilaženja CPU-a i operacijskog sustava tijekom prijenosa podataka:

  • Izravan pristup memoriji (bez kopiranja): RDMA prenosi podatke izravno iz memorije jednog računala u memoriju drugog bez uključivanja CPU-a ili OS-a bilo kojeg sustava. Ovaj pristup „bez kopiranja“ (zero-copy) eliminira posredne međuspremnike podataka i promjene konteksta, koji su glavni izvori opterećenja u tradicionalnom umrežavanju.
  • Smanjena latencija i opterećenje CPU-a: Zaobilaženjem CPU-a i OS-a, RDMA drastično smanjuje komunikacijsku latenciju i oslobađa cikluse CPU-a. To izravno dovodi do bržih izračuna i bolje obrade podataka u stvarnom vremenu. Primjerice, latencija aplikacije može pasti s oko 50 mikrosekundi s TCP/IP-om na samo 2-5 mikrosekundi s RDMA-om.
  • Veće iskorištenje propusnosti: Učinkovit put podataka i smanjeno opterećenje RDMA omogućuju aplikacijama bolje korištenje dostupne mrežne propusnosti, što rezultira većom efektivnom propusnošću.
  • Ključne implementacije: Glavne RDMA tehnologije koje se danas koriste su InfiniBand, RoCE (verzije 1 i 2) i iWARP.

III. RoCE v2: RDMA preko konvergiranog Etherneta

RoCE v2 predstavlja veliki korak naprijed u umrežavanju visokih performansi, proširujući prednosti RDMA na široko korišteni Ethernet ekosustav.

A. Arhitektonska načela

  • Evolucija iz RoCE v1: RoCE v1 bio je protokol sloja 2 (Ethertype 0x8915), što ga je ograničavalo na jednu Ethernet domenu emitiranja i smanjivalo njegovu skalabilnost. RoCE v2 to rješava djelovanjem na internetskom sloju. On enkapsulira RDMA promet unutar UDP/IP paketa (koristeći UDP odredišni port 4791), čineći ga usmjerivim preko IP mreža sloja 3. Ta usmjerivost ključno je poboljšanje koje omogućuje korištenje RoCE v2 u velikim podatkovnim centrima i okruženjima u oblaku.
  • Integracija RDMA preko Etherneta: RoCE pruža metodu za izvođenje RDMA preko standardne Ethernet mreže. Učinkovito zamjenjuje mrežni sloj InfiniBanda IP i UDP zaglavljima, zadržavajući pritom temeljni transportni sloj InfiniBanda i RDMA protokol. Ovaj dizajn omogućuje RoCE-u da iskoristi postojeću Ethernet infrastrukturu.
  • Format paketa: RoCE v2 paket uključuje IP zaglavlje i UDP zaglavlje, koji enkapsuliraju RDMA transportni protokol. Iako UDP ne jamči redoslijed paketa, RoCE v2 standard zahtijeva da se paketi s istim izvorišnim portom i odredišnom adresom ne smiju preuređivati.
  • Kompromis „najbolje od oba svijeta“: Dizajn RoCE v2 strateški je kompromis koji ima za cilj isporučiti visoke performanse RDMA na fleksibilnoj, isplativoj i sveprisutnoj Ethernet platformi. Iako ovaj pristup nudi široku kompatibilnost, stvara ključni izazov: osiguravanje performansi bez gubitaka koje RDMA treba preko Ethernet mreže, koja je inherentno sklona gubicima.

B. Profil performansi

  • Latencija: RoCE Host Channel Adapteri (HCA) mogu postići vrlo niske latencije, čak do 1,3 mikrosekunde. Na razini aplikacije, RoCE smanjuje latenciju na oko 5 mikrosekundi, što je ogromno poboljšanje u odnosu na 50 mikrosekundi tipičnih za TCP/IP. Iako InfiniBand nudi nešto nižu inherentnu latenciju, performanse RoCE-a izvrsne su za aplikacije u stvarnom vremenu.
  • Propusnost: RoCE v2 podržava visoku propusnost, s brzinama do 400 Gbps po portu.
  • Rasterećenje CPU-a: Kao i drugi RDMA protokoli, RoCE zaobilazi CPU za prijenos podataka. Ovo rasterećenje oslobađa vrijedne resurse CPU-a za računalno intenzivne zadatke umjesto mrežne obrade.
  • Performanse bez gubitaka: Kako bi parirao performansama InfiniBanda, RoCE ovisi o Ethernet mreži bez gubitaka. To se obično postiže implementacijom značajki Data Center Bridging (DCB), posebno Priority Flow Control (PFC) i Explicit Congestion Notification (ECN).

C. Infrastruktura i upravljanje

  • Hardverski/softverski zahtjevi: RoCE radi sa standardnim Ethernet hardverom poput preklopnika i kabela, omogućujući organizacijama korištenje postojeće infrastrukture. Međutim, zahtijeva Host Channel Adaptere (HCA) sposobne za RoCE na krajnjim točkama. Softverska podrška je zrela, s implementacijama u Mellanox OFED 2.3+ i integracijom u Linux Kernel v4.5+.
  • Konfiguracija mreže bez gubitaka: Iako RoCE koristi standardni Ethernet, stvaranje DCB mreže bez gubitaka može biti složenije od postavljanja InfiniBand mreže. Svaka komponenta, od krajnjih točaka do preklopnika, mora biti pažljivo konfigurirana. To uključuje postavljanje Priority Flow Control (PFC), Enhanced Transmission Selection (ETS) i mehanizama za obavještavanje o zagušenju. Da bi radile preko mreža sloja 3, ove karakteristike bez gubitaka moraju se održavati preko usmjerivača, često mapiranjem postavki prioriteta sloja 2 na postavke QoS DSCP sloja 3.
  • Aspekti upravljanja: RoCE se može upravljati standardnim Ethernet alatima. Međutim, osiguravanje dosljednih performansi bez gubitaka i upravljanje zagušenjem u velikim implementacijama RoCE v2 može biti izazovno i zahtijeva specijaliziranu stručnost.
  • Skriveni trošak „isplativosti“: RoCE se često naziva „isplativim“ jer može koristiti postojeću Ethernet infrastrukturu, ali to je pojednostavljenje. Postizanje performansi sličnih InfiniBandu zahtijeva savršeno konfiguriranu Ethernet mrežu bez gubitaka. Složenost postavljanja značajki Data Center Bridging (DCB) poput PFC-a i ECN-a može biti mnogo veća od konfiguriranja InfiniBand mreže. Ta složenost dovodi do viših operativnih troškova za dizajn mreže, rješavanje problema i upravljanje, a može zahtijevati i skuplje Ethernet preklopnike. Kao rezultat toga, početne uštede na hardveru kod RoCE-a mogu biti poništene ovim višim operativnim troškovima. Temeljita analiza ukupnih troškova vlasništva (TCO) ključna je za točnu usporedbu.

D. Ključne primjene

RoCE v2 izvrsno je rješenje za mnoge aplikacije u podatkovnim centrima i poduzećima. Posebno je pogodan za okruženja koja trebaju iznimno nisku latenciju i visoku propusnost, kao što su AI radna opterećenja, visokofrekventno trgovanje i analitika u stvarnom vremenu. Također poboljšava performanse aplikacija koje se uvelike oslanjaju na baze podataka ili datotečni I/O. Dodatno, RoCE v2 pomaže u osiguravanju kontinuiteta poslovanja i oporavka od katastrofe omogućujući brzu i učinkovitu replikaciju podataka. Njegova široka upotreba u klasterima za treniranje AI-a naglašava njegovu važnost u modernom računarstvu.

IV. InfiniBand: Specijalizirana mreža visokih performansi

InfiniBand je vrhunski međuspoj visokih performansi, od samog početka dizajniran da pruži neusporedivu brzinu, minimalnu latenciju i visoku pouzdanost za zahtjevna računalna okruženja.

A. Arhitektonska načela

  • Inherentni RDMA: InfiniBand je izgrađen s RDMA-om integriranim u cijeli svoj protokolski stog, od fizičkog sloja naviše. Ovaj dizajn od temelja osigurava da su RDMA operacije iznimno učinkovite, stvarajući izravne i zaštićene kanale podataka između čvorova bez sudjelovanja CPU-a.
  • Topologija preklopne mreže (switched fabric): InfiniBand koristi topologiju preklopne mreže za izravne veze od točke do točke između uređaja. Arhitektura uključuje Host Channel Adaptere (HCA) na procesorima i Target Channel Adaptere (TCA) na perifernim uređajima, omogućujući učinkovitu komunikaciju.
  • Kontrola toka temeljena na kreditima: Ključna značajka InfiniBanda je njegova kontrola toka temeljena na kreditima. Ovaj algoritam na razini hardvera jamči komunikaciju bez gubitaka osiguravajući da pošiljatelj šalje podatke samo ako primatelj ima dovoljno prostora u međuspremniku (kredita) da ih prihvati. Ova inherentna pouzdanost sprječava gubitak paketa i izdvaja InfiniBand od tehnologija koje trebaju konfiguracije na višim slojevima kako bi bile bez gubitaka.
  • Proprietarni standardi: InfiniBand slijedi proprietarne standarde koje definira InfiniBand Trade Association (IBTA), osnovana 1999. godine. Ekosustavom uvelike dominira NVIDIA (kroz akviziciju Mellanoxa), vodeći proizvođač InfiniBand adaptera i preklopnika.

B. Profil performansi

  • Iznimno niska latencija: InfiniBand dosljedno nudi najnižu latenciju. Latencije adaptera mogu biti niske i do 0,5 mikrosekundi, a latencija od porta do porta preklopnika je oko 100 nanosekundi — znatno niže od 230 nanosekundi usporedivih Ethernet preklopnika. Na razini aplikacije, InfiniBand može postići latencije niske i do 2 mikrosekunde, u usporedbi s 50 mikrosekundi kod TCP/IP-a.
  • Mogućnosti visoke propusnosti: InfiniBand podržava iznimno visoke brzine prijenosa podataka. Moderne verzije poput HDR-a i NDR-a nude do 200 Gbps i 400 Gbps po liniji. Agregirane veze mogu postići još veću propusnost, dosežući 800 Gbps (NDR) pa čak i 1,6 Tbps (XDR).
  • Učinkovitost CPU-a: Ključna snaga InfiniBanda je njegova sposobnost isporuke iznimno niske latencije i ekstremno visoke propusnosti s gotovo nikakvom upotrebom CPU-a. Ovo rasterećenje mrežne obrade ključna je prednost za računalno teška radna opterećenja.
  • Performanse po dizajnu naspram performansi po konfiguraciji: InfiniBand i RoCE imaju temeljnu razliku u pristupu. InfiniBand je dizajniran od temelja za RDMA, s fizičkim i transportnim slojevima projektiranim za pouzdanost na razini hardvera, uključujući inherentni algoritam temeljen na kreditima za komunikaciju bez gubitaka. Nasuprot tome, RoCE radi na standardnom Ethernetu i oslanja se na konfiguraciju značajki poput Priority Flow Control (PFC) i Explicit Congestion Notification (ECN) kako bi se stvorila mreža bez gubitaka. To znači da InfiniBand pruža zajamčene visoke performanse „iz kutije“, dok performanse RoCE-a ovise o kvaliteti temeljne Ethernet konfiguracije.

C. Infrastruktura i upravljanje

  • Namjenski hardver: InfiniBand zahtijeva specijalizirani hardver, uključujući namjenske Host Channel Adaptere (HCA), preklopnike, usmjerivače i proprietarne kabele. To obično rezultira višom početnom investicijom u usporedbi s rješenjima temeljenim na Ethernetu.
  • Centralizirano upravljanje: InfiniBand mrežama upravlja središnji Subnet Manager (SM), koji izračunava i distribuira tablice prosljeđivanja te upravlja konfiguracijama poput particija i kvalitete usluge (QoS). Ovaj centralizirani pristup može pojednostaviti upravljanje u velikim klasterima nakon početnog postavljanja.
  • Specijalizirana stručnost: Implementacija i održavanje InfiniBand mreža obično zahtijeva specijalizirano znanje, što može povećati operativne troškove i stvoriti strmiju krivulju učenja za IT osoblje.
  • Ekosustav: InfiniBand ekosustav je zreo, ali njime dominira NVIDIA/Mellanox.

D. Ključne primjene

InfiniBand je industrijski standard za okruženja računarstva visokih performansi (HPC) i najbrže rastući međuspoj za te aplikacije. To je primarna tehnologija koju preporučuje IBTA. Njegova iznimno niska latencija i visoka propusnost ključne su za zahtjevna radna opterećenja poput treniranja velikih AI/ML modela, analitike velikih podataka i masovnih operacija s bazama podataka. Također je ključan za velike simulacije (npr. vremenska prognoza) i visokofrekventne financijske usluge, gdje su brzina i integritet podataka kritični. U lipnju 2022. godine, 62 % od Top100 superračunala na svijetu koristilo je InfiniBand.

V. iWARP: RDMA preko standardnog TCP/IP-a

iWARP (Internet Wide Area RDMA Protocol) je još jedna metoda za implementaciju RDMA, poznata po korištenju standardnog TCP/IP protokolskog skupa.

A. Arhitektonska načela

  • RDMA preko TCP/IP-a: iWARP je protokol koji implementira RDMA preko standardnih IP mreža. Za razliku od RoCE-a, koji koristi UDP, iWARP je izgrađen na pouzdanim transportnim protokolima poput TCP-a i SCTP-a.
  • Ključne komponente: Rad iWARP-a ovisi o nekoliko komponenti. Direct Data Placement Protocol (DDP) omogućuje prijenos bez kopiranja (zero-copy) izravnim smještanjem podataka u memoriju aplikacije. Remote Direct Memory Access Protocol (RDMAP) pruža usluge za RDMA operacije čitanja i pisanja. Specifičan adaptacijski sloj, Marker PDU Aligned (MPA) uokvirivanje, potreban je kako bi se omogućio DDP preko TCP-a.
  • Pouzdanost: Jedinstvena značajka iWARP-a je da njegovu pouzdanost osigurava temeljni TCP protokol. To se razlikuje od RoCE v2, koji koristi UDP i zahtijeva vanjske mehanizme poput Data Center Bridginga (DCB) za pouzdanost. Kao rezultat toga, iWARP podržava samo pouzdanu, povezanu komunikaciju.

B. Profil performansi

  • Usporedna latencija i propusnost: Iako iWARP ima nižu latenciju od tradicionalnog TCP/IP-a, njegove su performanse općenito lošije od RoCE-a. U 2011. godini, najniža latencija iWARP HCA bila je 3 mikrosekunde, dok su RoCE HCA dosezali 1,3 mikrosekunde. Benchmark testovi dosljedno pokazuju da RoCE isporučuje poruke mnogo brže od iWARP-a, s propusnošću više od 2 puta većom na 40GbE i 5 puta većom na 10GbE.
  • Rasterećenje CPU-a: Kao i drugi RDMA protokoli, iWARP minimizira opterećenje CPU-a omogućujući izravne prijenose memorije. Može koristiti TCP Offload Engines (TOE) s RDMA hardverom kako bi postigao rezultate bez kopiranja i dodatno smanjio sudjelovanje CPU-a.

C. Infrastruktura i upravljanje

  • Kompatibilnost sa standardnim Ethernetom: Glavna prednost iWARP-a je njegova sposobnost rada preko standardne Ethernet infrastrukture s minimalnim promjenama na postojećoj mreži. To omogućuje organizacijama da iskoriste svoja postojeća ulaganja.
  • Hardverski zahtjevi: Unatoč kompatibilnosti sa standardnim Ethernet preklopnicima, iWARP i dalje zahtijeva mrežne kartice sposobne za iWARP na krajnjim točkama.
  • Aspekti integracije: iWARP je integriran u glavne operacijske sustave poput Microsoft Windows Servera i modernih Linux jezgri. To podržava aplikacije kao što su SMB Direct, iSCSI Extensions for RDMA (iSER) i Network File System over RDMA (NFS over RDMA).
  • Izazovi upravljanja: Upravljanje iWARP prometom može biti teško. Dijeli TCP-ov prostor portova, što komplicira upravljanje tokovima i otežava identifikaciju RDMA prometa. Općenito, iWARP se smatra težim za upravljanje od RoCE-a.

D. Tržišna relevantnost

  • Ograničeno usvajanje: iWARP je „neuobičajena“ ili „manje korištena“ RDMA implementacija u usporedbi s InfiniBandom i RoCE v2. Njegova rješenja imala su „ograničen uspjeh“ zbog izazova s implementacijom i postavljanjem.
  • Paradoks oslanjanja na TCP: Dizajnerski odabir iWARP-a da postavi RDMA preko TCP-a pruža ugrađenu pouzdanost i kompatibilnost, ali, paradoksalno, sprječava ga da u potpunosti postigne ključne prednosti RDMA. Inherentno opterećenje TCP protokola, čak i s hardverskim rasterećenjem, čini se da sprječava iWARP da dosegne iznimno nisku latenciju i visoku propusnost InfiniBanda ili RoCE-a. Ovaj kompromis u performansama doveo je do njegovog ograničenog usvajanja na tržištu.

VI. Usporedna analiza: RoCE v2 vs. InfiniBand vs. iWARP vs. standardni Ethernet

Detaljna usporedba performansi, infrastrukture i operativnih metrika ključna je za odabir pravog međuspoja visokih performansi.

A. Benchmark performansi

Performanse ovih međuspojeva znatno se razlikuju, posebno u latenciji, propusnosti i iskorištenosti CPU-a.

  • Latencija:
    • InfiniBand: Nudi najnižu latenciju. Latencija od porta do porta preklopnika je oko 100 nanosekundi, dok je latencija adaptera niska i do 0,5 do 1,3 mikrosekunde. Latencija na razini aplikacije može biti niska i do 2 mikrosekunde.
    • RoCE v2: Pruža iznimno nisku latenciju. Latencija Ethernet preklopnika je oko 230 nanosekundi, dok latencija HCA može biti niska i do 1,3 mikrosekunde. Latencija na razini aplikacije obično je oko 5 mikrosekundi.
    • iWARP: Ima višu latenciju od RoCE-a, s latencijom HCA prijavljenom oko 3 mikrosekunde (podaci iz 2011.). Dosljedno ima lošije performanse od RoCE-a.
    • Standardni TCP/IP: Ima najvišu latenciju, s jednosmjernom latencijom od 10 do 55 milisekundi. Latencija na razini aplikacije obično je oko 50 mikrosekundi.
  • Propusnost:
    • InfiniBand: Podržava vrlo visoku propusnost. Moderne verzije poput NDR-a nude do 400 Gbps po portu, a XDR doseže do 800 Gbps. Budući GDR predviđa se da će doseći 1,6 Tbps.
    • RoCE v2: Sposoban za visoku propusnost, podržavajući do 400 Gbps po portu.
    • iWARP: Općenito ima nižu propusnost od RoCE-a.
    • Standardni TCP/IP: Propusnost je često ograničena opterećenjem protokola i ponovnim slanjima, što otežava učinkovito korištenje veza visoke propusnosti.
  • Rasterećenje CPU-a:
    • InfiniBand, RoCE v2, iWARP: Sve tri RDMA tehnologije rasterećuju značajan dio rada CPU-a zaobilaženjem operacijskog sustava, oslobađajući resurse CPU-a za druge zadatke.
    • Standardni TCP/IP: Uzrokuje veliko opterećenje CPU-a jer je jezgra sustava jako uključena u obradu podataka.
  • Mehanizam bez gubitaka:
    • InfiniBand: Sadrži inherentnu kontrolu toka temeljenu na kreditima na razini hardvera, što jamči komunikaciju bez gubitaka.
    • RoCE v2: Oslanja se na Ethernet konfiguraciju bez gubitaka, koristeći značajke Data Center Bridging (DCB) poput PFC-a i ECN-a. Također ima mehanizam za pouzdanu isporuku od kraja do kraja s hardverskim ponovnim slanjem.
    • iWARP: Koristi ugrađeni pouzdani transport TCP-a za integritet podataka.
    • Standardni TCP/IP: Koristi model isporuke „najboljeg napora“ (best-effort), oslanjajući se na ponovna slanja na višim slojevima kako bi se osigurala pouzdanost, što dodaje latenciju.

Sljedeća tablica sažima karakteristike performansi:

Značajka InfiniBand RoCE v2 iWARP Standardni Ethernet/TCP/IP
Osnovna tehnologija Inherentni RDMA RDMA preko Etherneta (UDP/IP) RDMA preko Etherneta (TCP/IP) Tradicionalni slojeviti protokol
Tipična latencija aplikacije (µs) 2 5 >3 (2011 HCA) 50
Latencija preklopnika port-port (ns) 100 230 N/A (ovisi o Ethernetu) Obično viša, varijabilna
Maks. propusnost (Gbps po portu/vezi) 400 (NDR), 800 (XDR), 1.6T (GDR) 400 Općenito niža od RoCE-a 400+ (ali ograničena opterećenjem protokola)
Opterećenje CPU-a Gotovo nula Vrlo nisko Nisko Visoko
Mehanizam bez gubitaka Inherentna kontrola toka temeljena na kreditima Zahtijeva Ethernet bez gubitaka (PFC, ECN) Pouzdani transport TCP-a „Najbolji napor“, oslanja se na ponovna slanja
Usmjerivost (L2/L3) L3 (preko Subnet Managera) L3 (Usmjerivi RoCE) L3 L3 (Standardno IP usmjeravanje)

B. Infrastruktura i ekosustav

  • Ovisnosti o hardveru:
    • InfiniBand: Zahtijeva kompletan set specijaliziranog hardvera, uključujući InfiniBand HCA-e, preklopnike i proprietarne kabele.
    • RoCE v2: Zahtijeva HCA-e sposobne za RoCE, ali radi preko standardnih Ethernet preklopnika i kabela, omogućujući integraciju s postojećim mrežama.
    • iWARP: Zahtijeva mrežne kartice sposobne za iWARP, ali može koristiti standardne Ethernet preklopnike.
    • Standardni Ethernet: Koristi široko dostupne, komercijalne Ethernet NIC-ove i preklopnike.
  • Vezanost za dobavljača (Vendor Lock-in):
    • InfiniBand: Ekosustav je ograničen i njime dominira Mellanox (NVIDIA), što može izazvati zabrinutost zbog vezanosti za dobavljača.
    • RoCE v2: Koristi prednosti velikog i konkurentnog Ethernet ekosustava s više dobavljača. Neki nude „Univerzalne RDMA“ NIC-ove koji podržavaju i RoCE i iWARP, smanjujući vezanost.
    • iWARP: Također koristi prednosti širokog Ethernet ekosustava, s podrškom dobavljača poput Intela i Chelsia.
  • Interoperabilnost:
    • InfiniBand: Kao proprietarni standard, sve komponente moraju se pridržavati IBTA specifikacija kako bi se osigurala njihova međusobna suradnja.
    • RoCE v2: Njegova osnova na standardnom Ethernetu omogućuje širu interoperabilnost i lakšu integraciju s postojećim mrežama.
    • iWARP: Temelji se na standardnim IETF RFC-ovima za TCP/IP, osiguravajući visoku kompatibilnost unutar standardnih IP mreža.

C. Isplativost

  • Početna investicija:
    • InfiniBand: Obično zahtijeva višu početnu investiciju zbog specijaliziranog hardvera i licenciranja. Za velike AI klastere, InfiniBand preklopnici mogu biti znatno skuplji od RoCE preklopnika.
    • RoCE v2: Često je isplativija opcija jer se može integrirati s postojećim Ethernetom, smanjujući troškove novog hardvera. Uštede na preklopnicima za velike AI klastere mogu biti značajne (49 % do 70 % u usporedbi s InfiniBandom).
    • iWARP: Koristi standardne Ethernet preklopnike, ali zahtijeva specijalizirane adaptere, što i dalje može biti značajan trošak.
    • Standardni Ethernet: Općenito najjeftinija opcija zbog komercijalnog hardvera.
  • Ukupni trošak vlasništva (TCO):
    • InfiniBand: Obično ima viši TCO zbog specijaliziranog hardvera, održavanja i potrebe za obukom osoblja za proprietarnu tehnologiju.
    • RoCE v2: Može imati niži TCO, ali to je uvjetno. Složenost konfiguriranja i održavanja Ethernet mreže bez gubitaka može značajno povećati operativne troškove. Iako početni troškovi hardvera mogu biti niži, specijalizirano znanje i napor potrebni za dizajn, rješavanje problema i održavanje mogu poništiti te uštede. Stoga, „isplativost“ ovisi i o cijeni hardvera i o stručnosti i teretu upravljanja organizacije.
    • iWARP: Izazovi integracije i upravljanja mogu utjecati na njegov ukupni TCO.

Sljedeća tablica pruža usporedni pregled infrastrukturnih i troškovnih razmatranja:

Značajka InfiniBand RoCE v2 iWARP Standardni Ethernet/TCP/IP
Potreban mrežni hardver Namjenski IB NIC-ovi, IB preklopnici, IB kabeli NIC-ovi sposobni za RoCE, standardni Ethernet preklopnici/kabeli NIC-ovi sposobni za iWARP, standardni Ethernet preklopnici/kabeli Standardni Ethernet NIC-ovi, Ethernet preklopnici/kabeli
Mrežna kompatibilnost Proprietarna (IBTA standard) Standardni Ethernet (IEEE) Standardni Ethernet (IETF RFC-ovi) Standardni Ethernet (IEEE)
Složenost upravljanja Teško (specijalizirani SM) Teško (konfiguracija Etherneta bez gubitaka) Teže od RoCE-a Lako
Početni trošak hardvera (relativno) Visok Umjeren (koristi postojeće) Umjeren (specijalizirani NIC-ovi) Nizak
Ukupni trošak vlasništva (relativno) Viši Niži (uvjetno ovisno o upravljanju) Varijabilan (izazovi integracije) Najniži
Ekosustav dobavljača Ograničen (dominira NVIDIA/Mellanox) Širok (više Ethernet dobavljača) Širok (više Ethernet dobavljača) Vrlo širok

D. Skalabilnost i fleksibilnost

  • Mogućnosti usmjeravanja:
    • InfiniBand: Koristi preklopnu mrežu s usmjeravanjem koje centralno upravlja Subnet Manager (SM). Izuzetno je skalabilan, podržavajući klastere s preko 100.000 čvorova.
    • RoCE v2: Njegova UDP/IP enkapsulacija omogućuje usmjeravanje preko IP mreža sloja 3, čineći ga skalabilnim preko velikih mreža i okruženja u oblaku. Također podržava ECMP za učinkovito balansiranje opterećenja.
    • iWARP: Može se usmjeravati preko IP mreža.
    • Standardni Ethernet: Izuzetno skalabilan i fleksibilan, ali može zahtijevati napredne konfiguracije poput spine-leaf arhitektura za učinkovitost na razini HPC-a.
  • Mrežne topologije:
    • InfiniBand: Optimiziran za HPC/AI klastere, podržavajući topologije visokih performansi poput Fat Tree, Dragonfly+ i višedimenzionalnog Torusa.
    • RoCE v2: Njegovo usmjeravanje temeljeno na IP-u čini ga prilagodljivim gotovo svakoj mrežnoj topologiji.
    • Standardni Ethernet: Podržava širok raspon topologija, uključujući zvijezdu i mrežu.

E. Pouzdanost i kontrola zagušenja

  • Pouzdanost:
    • InfiniBand: Pruža inherentnu pouzdanost na razini hardvera sa svojom kontrolom toka temeljenom na kreditima, jamčeći komunikaciju bez gubitaka.
    • RoCE v2: Oslanja se na konfiguraciju Etherneta bez gubitaka koristeći PFC i ETS. Također uključuje mehanizam pouzdane isporuke od kraja do kraja s hardverskim ponovnim slanjem paketa.
    • iWARP: Koristi inherentnu pouzdanost TCP-a, koja pruža ispravljanje pogrešaka i ponovna slanja.
    • Standardni TCP/IP: Fokusira se na pouzdanost putem ponovnih slanja, što može dodati značajnu latenciju i smanjiti propusnost.
  • Kontrola zagušenja:
    • InfiniBand: Definira vlastite mehanizme kontrole zagušenja temeljene na FECN/BECN označavanju.
    • RoCE v2: Implementira protokol za kontrolu zagušenja koristeći IP ECN bitove i pakete za obavještavanje o zagušenju (CNP). Koriste se i industrijske prakse poput DCQCN-a.
    • iWARP: Oslanja se na uspostavljene algoritme za kontrolu zagušenja TCP-a.

F. Prikladnost za aplikacije

  • InfiniBand: Idealan izbor za okruženja koja trebaju najvišu propusnost podataka i najnižu latenciju. To uključuje znanstvena istraživanja, financijsko modeliranje, velike HPC klastere i najzahtjevnija AI/ML radna opterećenja za treniranje.
  • RoCE v2: Omiljen kod poduzeća koja žele iskoristiti svoju postojeću Ethernet infrastrukturu, a istovremeno trebaju visoke performanse. Dobro je prilagođen za mreže za pohranu podataka, analitiku u stvarnom vremenu i usluge u oblaku, nudeći ravnotežu između performansi i troškova.
  • iWARP: Može se razmotriti za nišne aplikacije gdje je postojeća TCP/IP infrastruktura strogi zahtjev, a iznimno niska latencija nije glavni prioritet. Pogodan je za aplikacije poput NVMeoF, iSER, SMB Direct i NFS over RDMA, ili kao jeftina opcija za testna okruženja.
  • Standardni Ethernet/TCP/IP: Ostaje najbolji izbor za općenito umrežavanje, kao što su LAN-ovi poduzeća i infrastruktura u oblaku gdje ekstremne HPC/AI performanse nisu glavni cilj.
  • Trilema performanse-trošak-složenost: Ova analiza otkriva temeljni kompromis pri odabiru međuspoja: trilemu između performansi, troška i složenosti. InfiniBand nudi vrhunske performanse i inherentnu pouzdanost, ali po višoj cijeni. RoCE v2 pruža performanse bliske InfiniBandu na Ethernetu, potencijalno smanjujući troškove hardvera, ali dodajući značajnu složenost konfiguracije. iWARP nudi RDMA preko TCP-a, ali s nižim performansama. Standardni Ethernet je isplativ, ali nema performanse za zahtjevna radna opterećenja. Ne postoji jedno „najbolje“ rješenje; pravi izbor zahtijeva balansiranje ova tri faktora na temelju specifičnih potreba i mogućnosti.

Sljedeća tablica prikazuje prikladnost primjene za svaku tehnologiju:

Tehnologija Primarni slučajevi upotrebe Najbolje za Manje prikladno za
InfiniBand HPC, AI/ML treniranje, analitika velikih podataka, financijske usluge (arbitraža) Okruženja koja zahtijevaju apsolutno najnižu latenciju, najvišu propusnost i inherentna jamstva bez gubitaka Općenito umrežavanje poduzeća osjetljivo na troškove, okruženja bez specijaliziranog IT znanja
RoCE v2 Podatkovni centri, usluge u oblaku, mreže za pohranu, analitika u stvarnom vremenu, AI/ML zaključivanje Organizacije koje koriste postojeću Ethernet infrastrukturu za visoke performanse; ravnoteža troškova i performansi Okruženja gdje su inherentna jamstva bez gubitaka nepremostiv zahtjev bez opsežnog znanja o konfiguraciji
iWARP NVMeoF, iSER, SMB Direct, NFS over RDMA, testna/razvojna okruženja Specifične aplikacije koje zahtijevaju RDMA preko postojećeg TCP/IP-a, gdje vrhunske performanse nisu ključne Veliki HPC/AI klasteri, aplikacije u stvarnom vremenu osjetljive na latenciju
Standardni Ethernet/TCP/IP Općenito umrežavanje poduzeća, LAN-ovi, internetska povezanost, infrastruktura u oblaku Sveprisutno, isplativo i fleksibilno općenito umrežavanje Računarstvo visokih performansi, AI/ML treniranje i druga radna opterećenja osjetljiva na latenciju i intenzivna za CPU

VII. Nove tehnologije međuspojeva visokih performansi i budući trendovi

Krajolik umrežavanja visokih performansi neprestano se mijenja, potaknut radnim opterećenjima s velikom količinom podataka i potrebom za većom učinkovitošću. Osim uspostavljenih RDMA tehnologija, novi međuspojevi i trendovi oblikuju budućnost podatkovnih centara.

A. Compute Express Link (CXL)

CXL je moderan međuspoj izgrađen na fizičkom sloju PCIe-a, dizajniran za općenite računalne sustave. Njegov glavni cilj je omogućiti brzu, besprijekornu komunikaciju između CPU-a i akceleratora poput GPU-a i FPGA-a.

Ključne značajke CXL-a uključuju prijenos podataka velikom brzinom, široku kompatibilnost i učinkovito dijeljenje memorije putem koherencije predmemorije (Cache Coherency). Podržava tri tipa uređaja (za akceleratore, koherentne uređaje s predmemorijom i proširivače memorije) i fleksibilne topologije. CXL/PCIe Gen5 nudi vršnu propusnost od 512 Gbps s latencijom oko 500 nanosekundi. Iako InfiniBand ima nižu latenciju (oko 100 nanosekundi), CXL je superioran za pristup memoriji niske latencije gdje je koherencija predmemorije ključna.

Važan razvoj bilo je spajanje konzorcija Gen-Z i CXL 2022. godine, što CXL pozicionira kao jedini industrijski standard za ovu klasu međuspojeva usmjerenih na memoriju.

CXL predstavlja pomak od tradicionalnog umrežavanja od čvora do čvora (poput RoCE-a i InfiniBanda) prema koherenciji memorije i razdvajanju resursa (disaggregation). To znači da za određena radna opterećenja CXL može postati primarni međuspoj, nadopunjujući ili smanjujući potrebu za tradicionalnim mrežnim strukturama.

B. NVLink

NVLink je NVIDIA-in proprietarni međuspoj visoke propusnosti i niske latencije, projektiran za izravnu komunikaciju GPU-GPU i GPU-CPU unutar njenih platformi za ubrzano računarstvo.

NVLink je ključni dio NVIDIA-inih rješenja za AI i HPC, kao što su njezine arhitekture GB200 i GB300. Ključan je za skaliranje treniranja AI modela pružajući iznimno brze prijenose podataka između GPU-a.

NVLink pokazuje trend prema vertikalnoj integraciji i specijaliziranim performansama. Njegova proprietarna priroda u suprotnosti je s otvorenim standardima poput RoCE-a ili InfiniBanda. Ovaj dizajn maksimizira performanse unutar hardverskog stoga jednog dobavljača. Dok InfiniBand i RoCE rješavaju općenito umrežavanje između čvorova, NVLink optimizira komunikaciju unutar i između GPU sustava, stvarajući slojevitu arhitekturu međuspojeva gdje različite tehnologije služe različitim potrebama.

C. Buduće brzine Etherneta

Ethernet je evoluirao od 10 Mbps do 400 Gbps, a razvoj se nastavlja s 800GbE i 1.6TbE standardima na horizontu. Ove brže brzine bit će ključne za aplikacije sljedeće generacije poput kvantnog računarstva, naprednog AI-a i imerzivnih tehnologija.

Kontinuirano povećanje brzina Etherneta izravno pogoduje RoCE-u. Budući da je RoCE izgrađen na Ethernetu, automatski ima koristi od tih napredaka, što mu pomaže da ostane konkurentan InfiniBandu. Rast usluga u oblaku već potiče implementaciju 200GbE i 400GbE, a slijede 800GbE i 1.6TbE.

Trajna relevantnost Etherneta i RoCE-a usko je povezana. Kako brzine Etherneta napreduju, RoCE postaje još jači konkurent za podatkovne centre visokih performansi, posebno za organizacije koje žele iskoristiti svoja postojeća ulaganja u Ethernet i izbjeći proprietarne ekosustave.

D. Razdvojeno računarstvo i fotonika

  • Razdvojeno računarstvo (Disaggregated Computing): Ovaj novi pristup ima za cilj poboljšati učinkovitost podatkovnih centara odvajanjem resursa poput računalne snage, pohrane i memorije od tradicionalnih poslužitelja. Ti se resursi zatim ponovno sastavljaju u fleksibilne skupove povezane naprednim mrežama. Ključni rezultat je da komunikacija koja se nekad odvijala unutar poslužitelja sada prelazi preko mreže, dramatično povećavajući opterećenje i čineći iznimno nisku latenciju ključnom. Ovaj trend jača potrebu za međuspojevima visokih performansi poput RoCE-a i InfiniBanda te potiče razvoj novih poput CXL-a.
  • Fotonika u mrežama podatkovnih centara: Silicijska fotonika integrira optičke komponente na silicijske čipove, omogućujući optičke međuspojeve velike brzine i niske potrošnje energije. Ova tehnologija nudi mnogo brže brzine prijenosa podataka (preko 100 Gbps), nižu latenciju i bolju energetsku učinkovitost od tradicionalnog bakra. Postaje ključna za ispunjavanje rastućih zahtjeva za prometom u podatkovnim centrima i omogućavanje sljedeće generacije Etherneta velike brzine.

Odnos između ovih trendova je simbiotski. Razdvojene arhitekture zahtijevaju napredno umrežavanje, koje pružaju međuspojevi poput RoCE-a, InfiniBanda i CXL-a. Zauzvrat, postizanje potrebnih brzina za te međuspojeve, posebno za buduće 800GbE i 1.6TbE standarde, ovisit će o tehnologijama poput silicijske fotonike.

VIII. Preporuke i zaključak

Odabir međuspoja visokih performansi ključna je strateška odluka koja se mora uskladiti sa specifičnim potrebama, proračunom, infrastrukturom i dugoročnom vizijom organizacije.

  • Za maksimalne sirove performanse i ključne HPC/AI aplikacije: InfiniBand je jasan zlatni standard. Njegov inherentni RDMA, kontrola toka temeljena na kreditima i namjenski dizajn pružaju najnižu latenciju i najvišu propusnost uz zajamčene performanse bez gubitaka. Organizacije s proračunom i stručnošću trebale bi odabrati InfiniBand za velike klastere gdje je svaka mikrosekunda važna.
  • Za visoke performanse uz isplativost i integraciju s Ethernetom: RoCE v2 je snažna i sve popularnija alternativa. Nudi značajna poboljšanja performansi u odnosu na TCP/IP i može se približiti performansama InfiniBanda korištenjem postojeće Ethernet infrastrukture. Idealan je za organizacije koje nadograđuju svoje podatkovne centre bez potpune obnove. Međutim, ovaj izbor zahtijeva predanost pažljivom konfiguriranju i upravljanju Ethernet mrežom bez gubitaka.
  • Za nišne aplikacije ili naslijeđena RDMA okruženja preko TCP-a: iWARP može biti prikladan u specifičnim slučajevima, posebno tamo gdje je korištenje postojeće TCP/IP infrastrukture obavezno, a vrhunske performanse nisu primarni cilj. Međutim, njegove niže performanse i veća složenost upravljanja ograničavaju njegovu upotrebu u modernim implementacijama visokih performansi.
  • Za općenito umrežavanje: Standardni Ethernet/TCP/IP ostaje najčešći i najisplativiji izbor za okruženja bez ekstremnih zahtjeva za performansama. Njegova jednostavnost korištenja i komercijalni hardver čine ga savršenim za općenite mreže poduzeća, LAN-ove i standardnu infrastrukturu u oblaku.
  • Razmatranje novih tehnologija za buduću otpornost: Organizacije bi trebale pratiti razvoj CXL-a za arhitekture usmjerene na memoriju i razdvojene arhitekture, jer on nadopunjuje tradicionalne mrežne strukture optimiziranjem udruživanja resursa. Slično tome, NVLink je ključan za optimizaciju komunikacije unutar NVIDIA-inih sustava s velikim brojem GPU-a. Ove tehnologije pokazuju diversifikaciju međuspojeva za različite slojeve računalne hijerarhije. Dodatno, razvoj 800GbE i 1.6TbE Etherneta, zajedno s napretkom u fotonici, nastavit će činiti RoCE još moćnijom opcijom.

Zaključno, umrežavanje visokih performansi je složeno, potaknuto zahtjevima AI-a, HPC-a i pomakom prema razdvojenom računarstvu. Dok InfiniBand predvodi u apsolutnim performansama za specijalizirana okruženja, RoCE v2 pruža snažnu i fleksibilnu alternativu koja premošćuje prednosti RDMA s sveprisutnošću Etherneta. Pojava CXL-a i NVLinka ukazuje na stratešku diversifikaciju međuspojeva, optimizirajući različite komunikacijske slojeve. Optimalno rješenje uvijek će biti strateška ravnoteža između zahtjeva za performansama, troškova, postojeće infrastrukture i vizije usmjerene na budućnost.

Ostavite komentar

Vaša adresa e-pošte neće biti objavljena. Obavezna polja su označena sa * (obavezno)