I. Rezime
Moderni data centri moraju da podrže zahtevna radna opterećenja kao što su računarstvo visokih performansi (HPC), veštačka inteligencija/mašinsko učenje (AI/ML) i analitika velikih podataka (Big Data). Ove aplikacije zahtevaju ultra-nisku latenciju, veliku propusnost i minimalno opterećenje procesora. Tradicionalni mrežni protokoli poput TCP/IP ne mogu da zadovolje ove potrebe zbog svog velikog opterećenja sistema i latencije.
Daljinski direktan pristup memoriji (RDMA) je ključna tehnologija koja omogućava interkonekcije visokih performansi. RDMA dozvoljava umreženim računarima da prenose podatke direktno između svojih memorija, bez uključivanja operativnih sistema ili procesora (direktno iz memorije u memoriju). Ovaj proces drastično smanjuje latenciju i opterećenje procesora.
- InfiniBand je namenski izgrađena, proprietarna mreža (fabric) dizajnirana za najviše moguće performanse i inherentan rad bez gubitaka.
- RoCE v2 (RDMA over Converged Ethernet) primenjuje prednosti RDMA tehnologije preko standardnog Etherneta, nudeći rutabilnu i isplativiju opciju, ali zahteva specifične konfiguracije kako bi radila bez gubitaka.
- iWARP je još jedno RDMA-preko-Etherneta rešenje zasnovano na TCP-u, ali je generalno ređe i nudi niže performanse od RoCE v2.
Izbor prave interkonekcije je strateška odluka koja zavisi od potreba za performansama, budžeta, postojeće infrastrukture i ciljeva skalabilnosti. Ovaj izveštaj analizira ove tehnologije, upoređuje ih sa standardnim Ethernet/TCP/IP rešenjima i istražuje nove alternative poput CXL-a i NVLink-a kako bi pomogao pri donošenju ove ključne odluke.
II. Uvod u umrežavanje visokih performansi i RDMA
Današnji digitalni svet karakteriše eksponencijalni rast aplikacija koje obrađuju velike količine podataka, kao što su računarstvo visokih performansi (HPC), veštačka inteligencija/mašinsko učenje (AI/ML) i analitika velikih podataka (Big Data). Ova radna opterećenja moraju brzo i efikasno da premeštaju ogromne skupove podataka između računarskih čvorova i skladišta. Na primer, AI aplikacije su izuzetno osetljive na integritet podataka i zahtevaju mreže bez gubitaka, gde bi jedna izgubljena poruka mogla da uništi ceo proces treniranja modela. Saobraćaj velike propusnosti je takođe ključan kako bi ove aplikacije efikasno obrađivale podatke.
Ograničenja tradicionalnog TCP/IP Etherneta za aplikacije visokih performansi
Iako je pouzdan za opšte umrežavanje, tradicionalni TCP/IP Ethernet ima značajna ograničenja za aplikacije visokih performansi:
- Visoka latencija i opterećenje procesora: Dizajn TCP/IP protokola podrazumeva slanje podataka kroz više softverskih slojeva u kernelu operativnog sistema, što zahteva značajno učešće procesora. Ovaj proces dodaje znatnu latenciju (obično desetine mikrosekundi) i stavlja veliko opterećenje na procesor. Za aplikacije osetljive na latenciju, ovo postaje ozbiljno usko grlo, jer procesor troši vreme na upravljanje mrežnim saobraćajem umesto na izvršavanje aplikacije. Ovaj „CPU porez“ koji nastaje usled promene konteksta (context switching) i kopiranja podataka je primarni razlog za usvajanje RDMA tehnologija, koje prebacuju obradu mreže na hardver (offload) i oslobađaju procesor za zadatke aplikacije.
- Ograničenja propusnosti: Nekoliko faktora ograničava efektivnu propusnost TCP-a, uključujući veličinu prozora za prenos, veličinu segmenta i gubitak paketa. Standardna veličina TCP prozora (često ograničena na 65.535 bajtova) može sprečiti potpuno iskorišćenje linkova velike propusnosti, posebno na mrežama sa višom latencijom. Pored toga, ključni mehanizam pouzdanosti TCP-a — ponovno slanje paketa — uvodi kašnjenja i koristi dodatnu propusnost, što šteti performansama u zagušenim mrežama ili mrežama sa gubicima.
- Izazovi skalabilnosti: Iako se TCP/IP dobro skalira za velike mreže, njegov dizajn daje prioritet opštoj pouzdanosti u odnosu na sirove performanse. To ga čini manje efikasnim za scenarije koji zahtevaju ekstremnu propusnost i minimalnu latenciju, kao što su veliki HPC klasteri ili AI inferencija u realnom vremenu.
Osnove daljinskog direktnog pristupa memoriji (RDMA) i njegove ključne prednosti
Daljinski direktan pristup memoriji (RDMA) razvijen je kako bi se prevazišla ograničenja TCP/IP-a u okruženjima visokih performansi. Njegove glavne prednosti proističu iz zaobilaženja procesora i operativnog sistema tokom prenosa podataka:
- Direktan pristup memoriji (Zero-Copy): RDMA prenosi podatke direktno iz memorije jednog računara u memoriju drugog, bez uključivanja procesora ili operativnog sistema bilo kog sistema. Ovaj pristup „bez kopiranja“ (zero-copy) eliminiše privremene bafere za podatke i promene konteksta, koji su glavni izvori opterećenja u tradicionalnom umrežavanju.
- Smanjena latencija i opterećenje procesora: Zaobilaženjem procesora i operativnog sistema, RDMA drastično smanjuje latenciju komunikacije i oslobađa cikluse procesora. To direktno dovodi do bržih izračunavanja i bolje obrade podataka u realnom vremenu. Na primer, latencija aplikacije može pasti sa oko 50 mikrosekundi kod TCP/IP na samo 2–5 mikrosekundi sa RDMA.
- Veće iskorišćenje propusnosti: Efikasan put podataka i smanjeno opterećenje sistema kod RDMA omogućavaju aplikacijama da bolje iskoriste dostupnu mrežnu propusnost, što rezultira većom efektivnom propusnošću.
- Ključne implementacije: Glavne RDMA tehnologije koje se danas koriste su InfiniBand, RoCE (verzije 1 i 2) i iWARP.
III. RoCE v2: RDMA preko konvergentnog Etherneta
RoCE v2 predstavlja značajan korak napred u umrežavanju visokih performansi, proširujući prednosti RDMA tehnologije na široko rasprostranjeni Ethernet ekosistem.
A. Arhitektonski principi
- Evolucija od RoCE v1: RoCE v1 je bio protokol Sloja 2 (Ethertype 0x8915), što ga je ograničavalo na jedan Ethernet broadcast domen i smanjivalo njegovu skalabilnost. RoCE v2 rešava ovaj problem radeći na internet sloju. On enkapsulira RDMA saobraćaj unutar UDP/IP paketa (koristeći UDP odredišni port 4791), čineći ga rutabilnim preko IP mreža Sloja 3. Ova rutabilnost je ključno poboljšanje, omogućavajući da se RoCE v2 koristi u velikim data centrima i cloud okruženjima.
- Integracija RDMA preko Etherneta: RoCE pruža metod za izvršavanje RDMA operacija preko standardne Ethernet mreže. On efektivno zamenjuje mrežni sloj InfiniBand-a IP i UDP zaglavljima, dok zadržava osnovni transportni sloj InfiniBand-a i RDMA protokol. Ovaj dizajn omogućava RoCE-u da iskoristi postojeću Ethernet infrastrukturu.
- Format paketa: RoCE v2 paket uključuje IP zaglavlje i UDP zaglavlje, koji enkapsuliraju RDMA transportni protokol. Iako UDP ne garantuje redosled paketa, RoCE v2 standard zahteva da paketi sa istim izvornim portom i odredišnom adresom ne smeju biti presloženi.
- Kompromis „najbolje od oba sveta“: Dizajn RoCE v2 je strateški kompromis, sa ciljem da pruži visoke performanse RDMA na fleksibilnoj, isplativoj i sveprisutnoj Ethernet platformi. Iako ovaj pristup nudi široku kompatibilnost, stvara ključni izazov: osigurati performanse bez gubitaka koje RDMA zahteva preko Ethernet mreže, koja je inherentno sklona gubicima.
B. Profil performansi
- Latencija: RoCE Host Channel Adapteri (HCA) mogu postići veoma niske latencije, čak do 1,3 mikrosekunde. Na nivou aplikacije, RoCE smanjuje latenciju na oko 5 mikrosekundi, što je ogromno poboljšanje u odnosu na 50 mikrosekundi tipičnih za TCP/IP. Iako InfiniBand nudi nešto nižu inherentnu latenciju, performanse RoCE-a su odlične za aplikacije u realnom vremenu.
- Propusnost: RoCE v2 podržava visoku propusnost, sa brzinama do 400 Gbps po portu.
- Rasterećenje procesora (CPU Offload): Kao i drugi RDMA protokoli, RoCE zaobilazi procesor za prenos podataka. Ovo rasterećenje oslobađa dragocene resurse procesora za računarski intenzivne zadatke umesto za obradu mreže.
- Performanse bez gubitaka: Da bi se izjednačio sa performansama InfiniBand-a, RoCE zavisi od Ethernet mreže bez gubitaka. To se obično postiže implementacijom funkcija Data Center Bridging (DCB), posebno Priority Flow Control (PFC) i Explicit Congestion Notification (ECN).
C. Infrastruktura i upravljanje
- Hardverski/softverski zahtevi: RoCE radi sa standardnim Ethernet hardverom kao što su svičevi i kablovi, omogućavajući organizacijama da koriste svoju postojeću infrastrukturu. Međutim, zahteva Host Channel Adaptere (HCA) koji podržavaju RoCE na krajnjim tačkama. Softverska podrška je zrela, sa implementacijama u Mellanox OFED 2.3+ i integracijom u Linux Kernel v4.5+.
- Konfiguracija mreže bez gubitaka: Iako RoCE koristi standardni Ethernet, stvaranje DCB mreže bez gubitaka može biti složenije od postavljanja InfiniBand mreže. Svaka komponenta, od krajnjih tačaka do svičeva, mora biti pažljivo konfigurisana. To uključuje postavljanje Priority Flow Control (PFC), Enhanced Transmission Selection (ETS) i mehanizama za obaveštavanje o zagušenju. Da bi radile preko mreža Sloja 3, ove karakteristike bez gubitaka moraju se održavati preko rutera, često mapiranjem postavki prioriteta Sloja 2 na postavke kvaliteta usluge (QoS) DSCP Sloja 3.
- Aspekti upravljanja: RoCE se može upravljati standardnim Ethernet alatima. Međutim, osiguravanje konzistentnih performansi bez gubitaka i upravljanje zagušenjem u velikim RoCE v2 implementacijama može biti izazovno i zahteva specijalizovanu ekspertizu.
- Skriveni trošak „isplativosti“: RoCE se često naziva „isplativim“ jer može koristiti postojeću Ethernet infrastrukturu, ali to je preterano pojednostavljivanje. Postizanje performansi sličnih InfiniBand-u zahteva savršeno konfigurisanu Ethernet mrežu bez gubitaka. Složenost postavljanja funkcija Data Center Bridging (DCB) poput PFC-a i ECN-a može biti mnogo veća od konfigurisanja InfiniBand mreže. Ova složenost dovodi do viših operativnih troškova za dizajn mreže, rešavanje problema i upravljanje, i može zahtevati skuplje Ethernet svičeve. Kao rezultat toga, početne uštede na hardveru kod RoCE-a mogu biti poništene ovim višim operativnim troškovima. Temeljna analiza ukupnih troškova vlasništva (TCO) je neophodna za tačno poređenje.
D. Ključne primene
RoCE v2 je odlično rešenje za mnoge aplikacije u data centrima i preduzećima. Posebno je pogodan za okruženja koja zahtevaju ultra-nisku latenciju i visoku propusnost, kao što su AI radna opterećenja, visokofrekventno trgovanje i analitika u realnom vremenu. Takođe poboljšava performanse aplikacija koje se u velikoj meri oslanjaju na baze podataka ili I/O operacije sa fajlovima. Pored toga, RoCE v2 pomaže u kontinuitetu poslovanja i oporavku od katastrofa omogućavajući brzu i efikasnu replikaciju podataka. Njegova široka upotreba u klasterima za treniranje AI modela naglašava njegov značaj u modernom računarstvu.
IV. InfiniBand: Specijalizovana mreža visokih performansi
InfiniBand je vrhunska interkonekcija visokih performansi, od početka dizajnirana da pruži neuporedivu brzinu, minimalnu latenciju i visoku pouzdanost za zahtevna računarska okruženja.
A. Arhitektonski principi
- Inherentni RDMA: InfiniBand je izgrađen sa RDMA tehnologijom integrisanom u ceo svoj stek protokola, od fizičkog sloja naviše. Ovaj dizajn „od nule“ osigurava da su RDMA operacije izuzetno efikasne, stvarajući direktne i zaštićene kanale podataka između čvorova bez učešća procesora.
- Topologija sa svičevima (Switched Fabric): InfiniBand koristi topologiju sa svičevima za direktne point-to-point veze između uređaja. Arhitektura uključuje Host Channel Adaptere (HCA) na procesorima i Target Channel Adaptere (TCA) na perifernim uređajima, omogućavajući efikasnu komunikaciju.
- Kontrola protoka zasnovana na kreditima: Ključna karakteristika InfiniBand-a je njegova kontrola protoka zasnovana na kreditima. Ovaj algoritam na nivou hardvera garantuje komunikaciju bez gubitaka osiguravajući da pošiljalac šalje podatke samo ako primalac ima dovoljno bafera (kredita) da ih prihvati. Ova inherentna pouzdanost sprečava gubitak paketa i izdvaja InfiniBand od tehnologija koje zahtevaju konfiguracije na višim slojevima da bi radile bez gubitaka.
- Proprietarni standardi: InfiniBand prati proprietarne standarde definisane od strane InfiniBand Trade Association (IBTA), osnovane 1999. godine. Ekosistemom u velikoj meri dominira NVIDIA (kroz akviziciju kompanije Mellanox), vodeći proizvođač InfiniBand adaptera i svičeva.
B. Profil performansi
- Ultra-niska latencija: InfiniBand dosledno nudi najnižu latenciju. Latencija adaptera može biti niska i do 0,5 mikrosekundi, a latencija od porta do porta na sviču je oko 100 nanosekundi — značajno niža od 230 nanosekundi uporedivih Ethernet svičeva. Na nivou aplikacije, InfiniBand može postići latencije od samo 2 mikrosekunde, u poređenju sa 50 mikrosekundi kod TCP/IP.
- Mogućnosti visoke propusnosti: InfiniBand podržava izuzetno visoke brzine prenosa podataka. Moderne verzije poput HDR i NDR nude do 200 Gbps i 400 Gbps po liniji. Agregirani linkovi mogu postići još veću propusnost, dostižući 800 Gbps (NDR), pa čak i 1,6 Tbps (XDR).
- Efikasnost procesora: Ključna snaga InfiniBand-a je njegova sposobnost da isporuči ultra-nisku latenciju i izuzetno visoku propusnost sa gotovo nikakvim korišćenjem procesora. Ovo rasterećenje obrade mreže je ključna prednost za računarski intenzivna radna opterećenja.
- Performanse po dizajnu naspram performansi po konfiguraciji: InfiniBand i RoCE imaju fundamentalnu razliku u svom pristupu. InfiniBand je dizajniran od samog početka za RDMA, sa fizičkim i transportnim slojevima projektovanim za pouzdanost na nivou hardvera, uključujući inherentni algoritam zasnovan na kreditima za komunikaciju bez gubitaka. Nasuprot tome, RoCE radi na standardnom Ethernetu i oslanja se na konfiguraciju funkcija kao što su Priority Flow Control (PFC) i Explicit Congestion Notification (ECN) da bi se stvorila mreža bez gubitaka. To znači da InfiniBand pruža garantovano visoke performanse „iz kutije“, dok performanse RoCE-a zavise od kvaliteta osnovne Ethernet konfiguracije.
C. Infrastruktura i upravljanje
- Namenski hardver: InfiniBand zahteva specijalizovani hardver, uključujući namenske Host Channel Adaptere (HCA), svičeve, rutere i proprietarne kablove. To obično rezultira većom početnom investicijom u poređenju sa rešenjima zasnovanim na Ethernetu.
- Centralizovano upravljanje: InfiniBand mrežama upravlja centralni Subnet Manager (SM), koji izračunava i distribuira tabele za prosleđivanje i upravlja konfiguracijama kao što su particije i kvalitet usluge (QoS). Ovaj centralizovani pristup može pojednostaviti upravljanje u velikim klasterima nakon početnog postavljanja.
- Specijalizovana ekspertiza: Implementacija i održavanje InfiniBand mreža obično zahteva specijalizovano znanje, što može povećati operativne troškove i stvoriti strmiju krivu učenja za IT osoblje.
- Ekosistem: InfiniBand ekosistem je zreo, ali njime dominira NVIDIA/Mellanox.
D. Ključne primene
InfiniBand je industrijski standard za okruženja računarstva visokih performansi (HPC) i najbrže rastuća interkonekcija za ove primene. To je primarna tehnologija koju preporučuje IBTA. Njegova ultra-niska latencija i visoka propusnost su neophodne za zahtevna radna opterećenja kao što su treniranje velikih AI/ML modela, analitika velikih podataka i masovne operacije sa bazama podataka. Takođe je ključan za velike simulacije (npr. vremenska prognoza) i visokofrekventne finansijske usluge, gde su brzina i integritet podataka od presudnog značaja. U junu 2022. godine, 62% od Top100 superračunara na svetu koristilo je InfiniBand.
V. iWARP: RDMA preko standardnog TCP/IP
iWARP (Internet Wide Area RDMA Protocol) je još jedan metod za implementaciju RDMA, poznat po korišćenju standardnog TCP/IP skupa protokola.
A. Arhitektonski principi
- RDMA preko TCP/IP: iWARP je protokol koji implementira RDMA preko standardnih IP mreža. Za razliku od RoCE-a, koji koristi UDP, iWARP je izgrađen na pouzdanim transportnim protokolima kao što su TCP i SCTP.
- Ključne komponente: Rad iWARP-a se oslanja na nekoliko komponenti. Direct Data Placement Protocol (DDP) omogućava prenos bez kopiranja (zero-copy) postavljanjem podataka direktno u memoriju aplikacije. Remote Direct Memory Access Protocol (RDMAP) pruža usluge za RDMA operacije čitanja i pisanja. Specifičan adaptacioni sloj, Marker PDU Aligned (MPA) framing, neophodan je da bi se omogućio DDP preko TCP-a.
- Pouzdanost: Jedinstvena karakteristika iWARP-a je da njegovu pouzdanost obezbeđuje osnovni TCP protokol. To se razlikuje od RoCE v2, koji koristi UDP i zahteva spoljne mehanizme kao što je Data Center Bridging (DCB) za pouzdanost. Kao rezultat toga, iWARP podržava samo pouzdanu, konekcijski orijentisanu komunikaciju.
B. Profil performansi
- Uporedna latencija i propusnost: Iako iWARP ima nižu latenciju od tradicionalnog TCP/IP-a, njegove performanse su generalno lošije od RoCE-a. Godine 2011, najniža latencija iWARP HCA bila je 3 mikrosekunde, dok su RoCE HCA dostizali 1,3 mikrosekunde. Merenja performansi (benchmark) dosledno pokazuju da RoCE isporučuje poruke mnogo brže od iWARP-a, sa propusnošću više od 2 puta većom na 40GbE i 5 puta većom na 10GbE.
- Rasterećenje procesora (CPU Offload): Kao i drugi RDMA protokoli, iWARP minimizira opterećenje procesora omogućavajući direktne prenose memorije. Može koristiti TCP Offload Engines (TOE) sa RDMA hardverom kako bi postigao rezultate bez kopiranja i dodatno smanjio učešće procesora.
C. Infrastruktura i upravljanje
- Kompatibilnost sa standardnim Ethernetom: Glavna prednost iWARP-a je njegova sposobnost da radi preko standardne Ethernet infrastrukture sa minimalnim promenama na postojećoj mreži. To omogućava organizacijama da iskoriste svoje trenutne investicije.
- Hardverski zahtevi: Uprkos kompatibilnosti sa standardnim Ethernet svičevima, iWARP i dalje zahteva mrežne kartice koje podržavaju iWARP na krajnjim tačkama.
- Aspekti integracije: iWARP je integrisan u glavne operativne sisteme kao što su Microsoft Windows Server i moderni Linux kerneli. To podržava aplikacije kao što su SMB Direct, iSCSI Extensions for RDMA (iSER) i Network File System over RDMA (NFS over RDMA).
- Izazovi upravljanja: Upravljanje iWARP saobraćajem može biti teško. On deli prostor portova sa TCP-om, što komplikuje upravljanje protokom i otežava identifikaciju RDMA saobraćaja. Generalno, iWARP se smatra težim za upravljanje od RoCE-a.
D. Tržišna relevantnost
- Ograničeno usvajanje: iWARP je „neuobičajena“ ili „ređe korišćena“ RDMA implementacija u poređenju sa InfiniBand-om i RoCE v2. Njegova rešenja su imala „ograničen uspeh“ zbog izazova sa implementacijom i primenom.
- Paradoks oslanjanja na TCP: Izbor dizajna iWARP-a da postavi RDMA preko TCP-a pruža ugrađenu pouzdanost i kompatibilnost, ali, paradoksalno, sprečava ga da u potpunosti ostvari ključne prednosti RDMA. Inherentno opterećenje TCP protokola, čak i sa hardverskim rasterećenjem, čini se da sprečava iWARP da dostigne ultra-nisku latenciju i visoku propusnost InfiniBand-a ili RoCE-a. Ovaj kompromis u performansama doveo je do njegovog ograničenog usvajanja na tržištu.
VI. Uporedna analiza: RoCE v2 vs. InfiniBand vs. iWARP vs. standardni Ethernet
Detaljno poređenje performansi, infrastrukture i operativnih metrika je ključno za odabir prave interkonekcije visokih performansi.
A. Merenja performansi (Benchmarks)
Performanse ovih interkonekcija se znatno razlikuju, posebno u pogledu latencije, propusnosti i iskorišćenja procesora.
- Latencija:
- InfiniBand: Nudi najnižu latenciju. Latencija od porta do porta na sviču je oko 100 nanosekundi, dok je latencija adaptera niska i do 0,5 do 1,3 mikrosekunde. Latencija na nivou aplikacije može biti samo 2 mikrosekunde.
- RoCE v2: Pruža ultra-nisku latenciju. Latencija Ethernet sviča je oko 230 nanosekundi, dok latencija HCA može biti niska i do 1,3 mikrosekunde. Latencija na nivou aplikacije je obično oko 5 mikrosekundi.
- iWARP: Ima višu latenciju od RoCE-a, sa latencijom HCA prijavljenom oko 3 mikrosekunde (podaci iz 2011). Dosledno pokazuje lošije performanse od RoCE-a.
- Standardni TCP/IP: Ima najvišu latenciju, sa jednosmernom latencijom od 10 do 55 milisekundi. Latencija na nivou aplikacije je obično oko 50 mikrosekundi.
- Propusnost:
- InfiniBand: Podržava veoma visoku propusnost. Moderne verzije kao što su NDR nude do 400 Gbps po portu, a XDR dostiže do 800 Gbps. Budući GDR se projektuje da dostigne 1,6 Tbps.
- RoCE v2: Sposoban za visoku propusnost, podržavajući do 400 Gbps po portu.
- iWARP: Generalno ima nižu propusnost od RoCE-a.
- Standardni TCP/IP: Propusnost je često ograničena opterećenjem protokola i ponovnim slanjem, što otežava efikasno korišćenje linkova velike propusnosti.
- Rasterećenje procesora (CPU Offload):
- InfiniBand, RoCE v2, iWARP: Sve tri RDMA tehnologije prebacuju značajan deo posla sa procesora zaobilazeći operativni sistem, oslobađajući resurse procesora za druge zadatke.
- Standardni TCP/IP: Izaziva veliko opterećenje procesora jer je kernel u velikoj meri uključen u obradu podataka.
- Mehanizam bez gubitaka:
- InfiniBand: Poseduje inherentnu kontrolu protoka zasnovanu na kreditima na nivou hardvera, što garantuje komunikaciju bez gubitaka.
- RoCE v2: Oslanja se na Ethernet konfiguraciju bez gubitaka, koristeći funkcije Data Center Bridging (DCB) kao što su PFC i ECN. Takođe ima mehanizam pouzdane isporuke od kraja do kraja sa ponovnim slanjem paketa na hardverskom nivou.
- iWARP: Koristi ugrađeni pouzdani transport TCP-a za integritet podataka.
- Standardni TCP/IP: Koristi model isporuke „najboljeg napora“ (best-effort), oslanjajući se na ponovno slanje na višim slojevima kako bi se osigurala pouzdanost, što dodaje latenciju.
Sledeća tabela sumira karakteristike performansi:
| Karakteristika | InfiniBand | RoCE v2 | iWARP | Standardni Ethernet/TCP/IP |
|---|---|---|---|---|
| Osnovna tehnologija | Inherentni RDMA | RDMA preko Etherneta (UDP/IP) | RDMA preko Etherneta (TCP/IP) | Tradicionalni slojeviti protokol |
| Tipična latencija aplikacije (µs) | 2 | 5 | >3 (HCA iz 2011.) | 50 |
| Latencija od porta do porta na sviču (ns) | 100 | 230 | N/A (oslanja se na Ethernet) | Tipično viša, promenljiva |
| Maks. propusnost (Gbps po portu/linku) | 400 (NDR), 800 (XDR), 1.6T (GDR) | 400 | Generalno niža od RoCE-a | 400+ (ali ograničena opterećenjem protokola) |
| Opterećenje procesora | Skoro nula | Veoma nisko | Nisko | Visoko |
| Mehanizam bez gubitaka | Inherentna kontrola protoka zasnovana na kreditima | Zahteva Ethernet bez gubitaka (PFC, ECN) | Pouzdan transport TCP-a | Best-Effort, oslanja se na ponovno slanje |
| Rutabilnost (L2/L3) | L3 (preko Subnet Manager-a) | L3 (Rutabilni RoCE) | L3 | L3 (Standardno IP rutiranje) |
B. Infrastruktura i ekosistem
- Hardverska zavisnost:
- InfiniBand: Zahteva kompletan set specijalizovanog hardvera, uključujući InfiniBand HCA, svičeve i proprietarne kablove.
- RoCE v2: Zahteva HCA koji podržavaju RoCE, ali radi preko standardnih Ethernet svičeva i kablova, omogućavajući integraciju sa postojećim mrežama.
- iWARP: Zahteva mrežne kartice koje podržavaju iWARP, ali može koristiti standardne Ethernet svičeve.
- Standardni Ethernet: Koristi široko dostupne, komercijalne (commodity) Ethernet mrežne kartice i svičeve.
- Vezanost za dobavljača (Vendor Lock-in):
- InfiniBand: Ekosistem je ograničen i njime dominira Mellanox (NVIDIA), što može izazvati zabrinutost zbog vezanosti za dobavljača.
- RoCE v2: Koristi prednosti velikog i konkurentnog Ethernet ekosistema sa više dobavljača. Neki nude „univerzalne RDMA“ mrežne kartice koje podržavaju i RoCE i iWARP, smanjujući vezanost.
- iWARP: Takođe koristi prednosti širokog Ethernet ekosistema, uz podršku dobavljača kao što su Intel i Chelsio.
- Interoperabilnost:
- InfiniBand: Kao proprietarni standard, sve komponente moraju biti u skladu sa IBTA specifikacijama kako bi se osiguralo da rade zajedno.
- RoCE v2: Njegova osnova na standardnom Ethernetu omogućava širu interoperabilnost i lakšu integraciju sa postojećim mrežama.
- iWARP: Zasnovan na standardnim IETF RFC-ovima za TCP/IP, osiguravajući visoku kompatibilnost unutar standardnih IP mreža.
C. Isplativost
- Početna investicija:
- InfiniBand: Obično zahteva veću početnu investiciju zbog specijalizovanog hardvera i licenciranja. Za velike AI klastere, InfiniBand svičevi mogu biti znatno skuplji od RoCE svičeva.
- RoCE v2: Često je isplativija opcija jer se može integrisati sa postojećim Ethernetom, smanjujući troškove novog hardvera. Uštede na svičevima za velike AI klastere mogu biti značajne (49% do 70% u poređenju sa InfiniBand-om).
- iWARP: Koristi standardne Ethernet svičeve, ali zahteva specijalizovane adaptere, što i dalje može predstavljati značajan trošak.
- Standardni Ethernet: Generalno najjeftinija opcija zbog svog komercijalnog hardvera.
- Ukupni troškovi vlasništva (TCO):
- InfiniBand: Teži da ima viši TCO zbog specijalizovanog hardvera, održavanja i potrebe za obukom osoblja za proprietarnu tehnologiju.
- RoCE v2: Može imati niži TCO, ali to je uslovno. Složenost konfigurisanja i održavanja Ethernet mreže bez gubitaka može značajno povećati operativne troškove. Iako početni troškovi hardvera mogu biti niži, specijalizovano znanje i napor potrebni za dizajn, rešavanje problema i održavanje mogu poništiti te uštede. Stoga, „isplativost“ zavisi i od cene hardvera i od stručnosti i opterećenja upravljanja u organizaciji.
- iWARP: Izazovi integracije i upravljanja mogu uticati na njegov ukupan TCO.
Sledeća tabela pruža uporedni pregled infrastrukturnih i troškovnih razmatranja:
| Karakteristika | InfiniBand | RoCE v2 | iWARP | Standardni Ethernet/TCP/IP |
|---|---|---|---|---|
| Potreban mrežni hardver | Namenski IB NIC, IB svičevi, IB kablovi | NIC-ovi koji podržavaju RoCE, standardni Ethernet svičevi/kablovi | NIC-ovi koji podržavaju iWARP, standardni Ethernet svičevi/kablovi | Standardni Ethernet NIC, Ethernet svičevi/kablovi |
| Mrežna kompatibilnost | Proprietarna (IBTA standard) | Standardni Ethernet (IEEE) | Standardni Ethernet (IETF RFC-ovi) | Standardni Ethernet (IEEE) |
| Složenost upravljanja | Teško (specijalizovani SM) | Teško (konfiguracija Etherneta bez gubitaka) | Teže od RoCE-a | Lako |
| Početni trošak hardvera (relativno) | Visok | Umeren (koristi postojeće) | Umeren (specijalizovani NIC-ovi) | Nizak |
| Ukupni troškovi vlasništva (relativno) | Viši | Niži (uslovno od upravljanja) | Promenljiv (izazovi integracije) | Najniži |
| Ekosistem dobavljača | Ograničen (dominira NVIDIA/Mellanox) | Širok (više Ethernet dobavljača) | Širok (više Ethernet dobavljača) | Veoma širok |
D. Skalabilnost i fleksibilnost
- Mogućnosti rutiranja:
- InfiniBand: Koristi mrežu sa svičevima (switched fabric) sa rutiranjem centralno upravljanim od strane Subnet Manager-a (SM). Izuzetno je skalabilan, podržavajući klastere sa preko 100.000 čvorova.
- RoCE v2: Njegova UDP/IP enkapsulacija omogućava rutiranje preko IP mreža Sloja 3, čineći ga skalabilnim preko velikih mreža i cloud okruženja. Takođe podržava ECMP za efikasno balansiranje opterećenja.
- iWARP: Rutabilan je preko IP mreža.
- Standardni Ethernet: Veoma skalabilan i fleksibilan, ali može zahtevati napredne konfiguracije kao što su spine-leaf arhitekture za efikasnost na nivou HPC-a.
- Mrežne topologije:
- InfiniBand: Optimizovan za HPC/AI klastere, podržavajući topologije visokih performansi kao što su Fat Tree, Dragonfly+ i višedimenzionalni Torus.
- RoCE v2: Njegovo rutiranje zasnovano na IP-u čini ga prilagodljivim gotovo svakoj mrežnoj topologiji.
- Standardni Ethernet: Podržava širok spektar topologija, uključujući zvezdu i mesh.
E. Pouzdanost i kontrola zagušenja
- Pouzdanost:
- InfiniBand: Pruža inherentnu pouzdanost na nivou hardvera sa svojom kontrolom protoka zasnovanom na kreditima, garantujući komunikaciju bez gubitaka.
- RoCE v2: Oslanja se na Ethernet konfiguraciju bez gubitaka koristeći PFC i ETS. Takođe uključuje mehanizam pouzdane isporuke od kraja do kraja sa ponovnim slanjem paketa na hardverskom nivou.
- iWARP: Koristi inherentnu pouzdanost TCP-a, koja pruža ispravljanje grešaka i ponovno slanje.
- Standardni TCP/IP: Fokusira se na pouzdanost putem ponovnog slanja, što može dodati značajnu latenciju i smanjiti propusnost.
- Kontrola zagušenja:
- InfiniBand: Definiše sopstvene mehanizme kontrole zagušenja zasnovane na FECN/BECN označavanju.
- RoCE v2: Implementira protokol za kontrolu zagušenja koristeći IP ECN bitove i Congestion Notification Packets (CNP). Takođe se koriste industrijske prakse kao što je DCQCN.
- iWARP: Oslanja se na uspostavljene algoritme za kontrolu zagušenja TCP-a.
F. Pogodnost za primenu
- InfiniBand: Idealan izbor za okruženja koja zahtevaju najvišu propusnost podataka i najnižu latenciju. To uključuje naučna istraživanja, finansijsko modeliranje, velike HPC klastere i najzahtevnija AI/ML radna opterećenja za treniranje modela.
- RoCE v2: Omiljen kod preduzeća koja žele da koriste svoju postojeću Ethernet infrastrukturu, a da pritom i dalje imaju visoke performanse. Dobro je prilagođen za mreže za skladištenje podataka, analitiku u realnom vremenu i cloud usluge, nudeći ravnotežu između performansi i troškova.
- iWARP: Može se razmotriti za nišne primene gde je postojeća TCP/IP infrastruktura striktan zahtev, a ultra-niska latencija nije glavni prioritet. Pogodan je za aplikacije kao što su NVMeoF, iSER, SMB Direct i NFS over RDMA, ili kao jeftina opcija za testna okruženja.
- Standardni Ethernet/TCP/IP: Ostaje najbolji izbor za opšte umrežavanje, kao što su LAN mreže u preduzećima i cloud infrastruktura gde ekstremne HPC/AI performanse nisu glavni cilj.
- Trilema performanse-trošak-složenost: Ova analiza otkriva fundamentalni kompromis pri izboru interkonekcije: trilemu između performansi, troškova i složenosti. InfiniBand nudi vrhunske performanse i inherentnu pouzdanost, ali po višoj ceni. RoCE v2 pruža performanse bliske InfiniBand-u na Ethernetu, potencijalno smanjujući troškove hardvera, ali dodajući značajnu složenost konfiguracije. iWARP nudi RDMA preko TCP-a, ali sa nižim performansama. Standardni Ethernet je isplativ, ali mu nedostaju performanse za zahtevna radna opterećenja. Ne postoji jedinstveno „najbolje“ rešenje; pravi izbor zahteva balansiranje ova tri faktora na osnovu specifičnih potreba i mogućnosti.
Sledeća tabela prikazuje pogodnost primene za svaku tehnologiju:
| Tehnologija | Primarni slučajevi upotrebe | Najpogodnije za | Manje pogodno za |
|---|---|---|---|
| InfiniBand | HPC, AI/ML treniranje, analitika velikih podataka, finansijske usluge (arbitraža) | Okruženja koja zahtevaju apsolutno najnižu latenciju, najvišu propusnost i inherentne garancije bez gubitaka | Cenovno osetljivo opšte umrežavanje u preduzećima, okruženja bez specijalizovane IT ekspertize |
| RoCE v2 | Data centri, cloud usluge, mreže za skladištenje, analitika u realnom vremenu, AI/ML inferencija | Organizacije koje koriste postojeću Ethernet infrastrukturu za visoke performanse; ravnoteža troškova i performansi | Okruženja gde su inherentne garancije bez gubitaka nezaobilazne bez obimne ekspertize za konfiguraciju |
| iWARP | NVMeoF, iSER, SMB Direct, NFS over RDMA, testna/razvojna okruženja | Specifične aplikacije koje zahtevaju RDMA preko postojećeg TCP/IP, gde apsolutne vršne performanse nisu ključne | Veliki HPC/AI klasteri, aplikacije u realnom vremenu osetljive na latenciju |
| Standardni Ethernet/TCP/IP | Opšte umrežavanje u preduzećima, LAN, internet konekcije, cloud infrastruktura | Sveprisutno, isplativo i fleksibilno umrežavanje opšte namene | Računarstvo visokih performansi, AI/ML treniranje i druga radna opterećenja osetljiva na latenciju i intenzivna po pitanju procesora |
VII. Nove interkonekcije visokih performansi i budući trendovi
Pejzaž umrežavanja visokih performansi se neprestano menja, vođen radnim opterećenjima koja intenzivno koriste podatke i potrebom za većom efikasnošću. Pored uspostavljenih RDMA tehnologija, nove interkonekcije i trendovi oblikuju budućnost data centara.
A. Compute Express Link (CXL)
CXL je moderna interkonekcija izgrađena na fizičkom sloju PCIe, dizajnirana za opšte računarske sisteme. Njen glavni cilj je da omogući brzu, besprekornu komunikaciju između procesora i akceleratora kao što su grafičke kartice (GPU) i FPGA.
Ključne karakteristike CXL-a uključuju prenos podataka velikom brzinom, široku kompatibilnost i efikasno deljenje memorije putem koherentnosti keša (Cache Coherency). Podržava tri tipa uređaja (za akceleratore, keš-koherentne uređaje i proširivače memorije) i fleksibilne topologije. CXL/PCIe Gen5 nudi vršnu propusnost od 512 Gbps sa latencijom od oko 500 nanosekundi. Iako InfiniBand ima nižu latenciju (oko 100 nanosekundi), CXL je superioran za pristup memoriji sa niskom latencijom gde je koherentnost keša od presudnog značaja.
Značajan razvoj bilo je spajanje Gen-Z i CXL konzorcijuma 2022. godine, što pozicionira CXL kao jedini industrijski standard za ovu klasu interkonekcija fokusiranih na memoriju.
CXL predstavlja pomak od tradicionalnog umrežavanja od čvora do čvora (kao što su RoCE i InfiniBand) ka koherentnosti memorije i disagregaciji resursa. To znači da za određena radna opterećenja, CXL može postati primarna interkonekcija, dopunjujući ili smanjujući potrebu za tradicionalnim mrežnim rešenjima (fabrics).
B. NVLink
NVLink je NVIDIA-ina proprietarna interkonekcija velike propusnosti i niske latencije, projektovana za direktnu komunikaciju između GPU-ova (GPU-to-GPU) i između GPU-a i procesora (GPU-to-CPU) unutar njenih platformi za ubrzano računarstvo.
NVLink je ključni deo NVIDIA rešenja za AI i HPC, kao što su njene arhitekture GB200 i GB300. Ključan je za skaliranje treniranja AI modela pružajući izuzetno brz prenos podataka između GPU-ova.
NVLink pokazuje trend ka vertikalnoj integraciji i specijalizovanim performansama. Njegova proprietarna priroda je u suprotnosti sa otvorenim standardima kao što su RoCE ili InfiniBand. Ovaj dizajn maksimizira performanse unutar hardverskog steka jednog dobavljača. Dok InfiniBand i RoCE obavljaju opšte umrežavanje između čvorova, NVLink optimizuje komunikaciju unutar i između GPU sistema, stvarajući slojevitu arhitekturu interkonekcija gde različite tehnologije služe različitim potrebama.
C. Buduće brzine Etherneta
Ethernet je evoluirao od 10 Mbps do 400 Gbps, a razvoj se nastavlja sa standardima 800GbE i 1.6TbE na horizontu. Ove veće brzine biće neophodne za sledeću generaciju aplikacija kao što su kvantno računarstvo, napredna veštačka inteligencija i imerzivne tehnologije.
Kontinuirano povećanje brzina Etherneta direktno koristi RoCE-u. Pošto je RoCE izgrađen na Ethernetu, automatski profitira od ovih napredaka, što mu pomaže da ostane konkurentan InfiniBand-u. Rast cloud usluga već podstiče primenu 200GbE i 400GbE, a sledeći su 800GbE i 1.6TbE.
Stalna relevantnost Etherneta i RoCE-a su usko povezane. Kako brzine Etherneta napreduju, RoCE postaje još jači konkurent za data centre visokih performansi, posebno za organizacije koje žele da iskoriste svoje postojeće Ethernet investicije i izbegnu proprietarne ekosisteme.
D. Disagregirano računarstvo i fotonika
- Disagregirano računarstvo: Ovaj novi pristup ima za cilj da poboljša efikasnost data centara razdvajanjem resursa kao što su računarske jedinice, skladište i memorija od tradicionalnih servera. Ovi resursi se zatim ponovo sastavljaju u fleksibilne skupove (pools) povezane naprednim umrežavanjem. Ključni rezultat je da komunikacija koja se nekada odvijala unutar servera sada prelazi preko mreže, dramatično povećavajući opterećenje i čineći ultra-nisku latenciju ključnom. Ovaj trend pojačava potrebu za interkonekcijama visokih performansi kao što su RoCE i InfiniBand i podstiče razvoj novih, kao što je CXL.
- Fotonika u umrežavanju data centara: Silicijumska fotonika integriše optičke komponente na silicijumske čipove, omogućavajući optičke interkonekcije velike brzine i male potrošnje energije. Ova tehnologija nudi mnogo brže brzine prenosa podataka (preko 100 Gbps), nižu latenciju i bolju energetsku efikasnost od tradicionalnog bakra. Postaje neophodna za ispunjavanje rastućih zahteva za saobraćajem u data centrima i omogućavanje sledeće generacije Etherneta velikih brzina.
Odnos između ovih trendova je simbiotski. Disagregirane arhitekture zahtevaju napredno umrežavanje, koje pružaju interkonekcije kao što su RoCE, InfiniBand i CXL. Zauzvrat, postizanje neophodnih brzina za ove interkonekcije, posebno za buduće standarde 800GbE i 1.6TbE, oslanjaće se na tehnologije kao što je silicijumska fotonika.
VIII. Preporuke i zaključak
Izbor interkonekcije visokih performansi je ključna strateška odluka koja mora biti u skladu sa specifičnim potrebama organizacije, budžetom, infrastrukturom i dugoročnom vizijom.
- Za maksimalne sirove performanse i kritične HPC/AI primene: InfiniBand je jasan zlatni standard. Njegov inherentni RDMA, kontrola protoka zasnovana na kreditima i namenski dizajn pružaju najnižu latenciju i najvišu propusnost sa garantovanim performansama bez gubitaka. Organizacije sa budžetom i stručnošću trebalo bi da izaberu InfiniBand za velike klastere gde je svaka mikrosekunda bitna.
- Za visoke performanse uz isplativost i integraciju sa Ethernetom: RoCE v2 je snažna i sve popularnija alternativa. Nudi značajna poboljšanja performansi u odnosu na TCP/IP i može se približiti performansama InfiniBand-a koristeći postojeću Ethernet infrastrukturu. Idealan je za organizacije koje unapređuju svoje data centre bez potpune rekonstrukcije. Međutim, ovaj izbor zahteva posvećenost pažljivom konfigurisanju i upravljanju Ethernet mrežom bez gubitaka.
- Za nišne primene ili nasleđena RDMA preko TCP okruženja: iWARP može biti pogodan u specifičnim slučajevima, posebno tamo gde je korišćenje postojeće TCP/IP infrastrukture obavezno, a vršne performanse nisu primarni cilj. Međutim, njegove niže performanse i veća složenost upravljanja ograničavaju njegovu upotrebu u modernim implementacijama visokih performansi.
- Za opšte umrežavanje: Standardni Ethernet/TCP/IP ostaje najčešći i najisplativiji izbor za okruženja bez ekstremnih zahteva za performansama. Njegova jednostavnost upotrebe i komercijalni hardver čine ga savršenim za opšte mreže u preduzećima, LAN i standardnu cloud infrastrukturu.
- Razmatranje novih tehnologija za budućnost: Organizacije bi trebalo da prate razvoj CXL-a za memorijski-centrične i disagregirane arhitekture, jer on dopunjuje tradicionalne mrežne rešenja optimizujući objedinjavanje resursa (resource pooling). Slično tome, NVLink je ključan za optimizaciju komunikacije unutar NVIDIA sistema sa velikim brojem GPU-ova. Ove tehnologije pokazuju diversifikaciju interkonekcija za različite slojeve računarske hijerarhije. Pored toga, razvoj 800GbE i 1.6TbE Etherneta, zajedno sa napretkom u fotonici, nastaviće da čini RoCE još moćnijom opcijom.
Zaključno, umrežavanje visokih performansi je složeno, vođeno zahtevima veštačke inteligencije, HPC-a i prelaskom na disagregirano računarstvo. Dok InfiniBand prednjači u apsolutnim performansama za specijalizovana okruženja, RoCE v2 pruža moćnu i fleksibilnu alternativu koja premošćuje prednosti RDMA sa sveprisutnošću Etherneta. Pojava CXL-a i NVLink-a ukazuje na stratešku diversifikaciju interkonekcija, optimizujući različite slojeve komunikacije. Optimalno rešenje će uvek biti strateška ravnoteža između zahteva za performansama, troškova, postojeće infrastrukture i vizije okrenute budućnosti.




