I. Sammendrag
Moderne datasentre må støtte krevende arbeidslaster som høyytelsesdatabehandling (HPC), kunstig intelligens / maskinlæring (AI/ML) og stordataanalyse. Disse applikasjonene krever ultralav forsinkelse, høy båndbredde og minimal CPU-bruk. Tradisjonelle nettverksprotokoller som TCP/IP kan ikke møte disse behovene på grunn av sin høye overhead og forsinkelse.
Remote Direct Memory Access (RDMA) er nøkkelteknologien som muliggjør høyytelsessamband. RDMA lar datamaskiner i et nettverk overføre data direkte mellom minnet sitt uten å involvere operativsystemene eller prosessorene (minne-til-minne). Denne prosessen reduserer forsinkelse og CPU-belastning dramatisk.
- InfiniBand er et skreddersydd, proprietært nettverk designet for høyest mulig ytelse og tapsfri drift.
- RoCE v2 (RDMA over Converged Ethernet) anvender RDMA-fordelene over standard Ethernet, noe som gir et ruterbart og mer kostnadseffektivt alternativ, men det krever spesifikke konfigurasjoner for å være tapsfritt.
- iWARP er en annen RDMA-over-Ethernet-løsning basert på TCP, men den er generelt mindre vanlig og tilbyr lavere ytelse enn RoCE v2.
Å velge riktig samband er en strategisk beslutning som avhenger av ytelsesbehov, budsjett, eksisterende infrastruktur og skalerbarhetsmål. Denne rapporten analyserer disse teknologiene, sammenligner dem med standard Ethernet/TCP/IP, og utforsker nye alternativer som CXL og NVLink for å veilede denne kritiske beslutningen.
II. Introduksjon til høyytelsesnettverk og RDMA
Dagens digitale verden preges av eksponentiell vekst i datatunge applikasjoner som høyytelsesdatabehandling (HPC), kunstig intelligens / maskinlæring (AI/ML) og stordataanalyse. Disse arbeidslastene må flytte enorme datasett raskt og effektivt mellom beregningsnoder og lagring. For eksempel er AI-applikasjoner svært følsomme for dataintegritet og krever tapsfrie nettverk, der en enkelt tapt melding kan ødelegge en hel treningsøkt. Høy båndbredde er også essensielt for at disse applikasjonene skal kunne behandle data effektivt.
Begrensninger ved tradisjonelt TCP/IP Ethernet for høyytelsesapplikasjoner
Selv om tradisjonelt TCP/IP Ethernet er pålitelig for generell nettverksbruk, har det store begrensninger for høyytelsesapplikasjoner:
- Høy forsinkelse og CPU-overhead: TCP/IPs design sender data gjennom flere programvarelag i operativsystemkjernen, noe som krever betydelig CPU-involvering. Denne prosessen legger til betydelig forsinkelse (typisk titalls mikrosekunder) og legger en tung belastning på CPU-en. For forsinkelsessensitive applikasjoner blir dette en stor flaskehals, ettersom CPU-en bruker tiden sin på å håndtere nettverkstrafikk i stedet for å kjøre applikasjonen. Denne «CPU-skatten» fra kontekstbytter og datakopiering er en primær årsak til å ta i bruk RDMA-teknologier, som avlaster nettverksbehandling og frigjør CPU-en til applikasjonsoppgaver.
- Gjennomstrømningsbegrensninger: Flere faktorer begrenser TCPs effektive gjennomstrømning, inkludert størrelsen på overføringsvinduet, segmentstørrelsen og pakketap. Standardstørrelsen på TCP-vinduet (ofte begrenset til 65 535 byte) kan forhindre full utnyttelse av høy båndbredde, spesielt på nettverk med høyere forsinkelse. I tillegg introduserer TCPs kjernemekanisme for pålitelighet – retransmisjon av pakker – forsinkelser og bruker ekstra båndbredde, noe som reduserer ytelsen i overbelastede eller tapsutsatte nettverk.
- Skalerbarhetsutfordringer: Selv om TCP/IP skalerer godt for store nettverk, prioriterer designet generell pålitelighet fremfor rå ytelse. Dette gjør det mindre effektivt for scenarioer som krever ekstrem gjennomstrømning og minimal forsinkelse, som for eksempel store HPC-klynger eller sanntids-AI-inferens.
Grunnleggende om Remote Direct Memory Access (RDMA) og dens kjernefordeler
Remote Direct Memory Access (RDMA) ble utviklet for å overvinne TCP/IPs begrensninger i høyytelsesmiljøer. Dets viktigste fordeler kommer fra å omgå CPU-en og operativsystemet under dataoverføringer:
- Direkte minnetilgang (Zero-Copy): RDMA overfører data direkte fra én datamaskins minne til en annens uten å involvere systemenes CPU eller OS. Denne «zero-copy»-tilnærmingen eliminerer mellomliggende databuffere og kontekstbytter, som er store kilder til overhead i tradisjonelle nettverk.
- Redusert forsinkelse og CPU-belastning: Ved å omgå CPU-en og OS-et reduserer RDMA kommunikasjonsforsinkelsen drastisk og frigjør CPU-sykluser. Dette fører direkte til raskere beregninger og bedre databehandling i sanntid. For eksempel kan applikasjonsforsinkelsen falle fra omtrent 50 mikrosekunder med TCP/IP til så lite som 2–5 mikrosekunder med RDMA.
- Høyere båndbreddeutnyttelse: Den effektive datastien og reduserte overheaden i RDMA lar applikasjoner utnytte tilgjengelig nettverksbåndbredde bedre, noe som resulterer i høyere effektiv gjennomstrømning.
- Sentrale implementeringer: De viktigste RDMA-teknologiene som brukes i dag, er InfiniBand, RoCE (versjon 1 og 2) og iWARP.
III. RoCE v2: RDMA over Converged Ethernet
RoCE v2 er et stort skritt fremover innen høyytelsesnettverk, og utvider fordelene med RDMA til det mye brukte Ethernet-økosystemet.
A. Arkitektoniske prinsipper
- Evolusjon fra RoCE v1: RoCE v1 var en lag 2-protokoll (Ethertype 0x8915), noe som begrenset den til ett enkelt Ethernet-kringkastingsdomene og reduserte skalerbarheten. RoCE v2 løser dette ved å operere på internettlaget. Det kapsler inn RDMA-trafikk i UDP/IP-pakker (ved bruk av UDP-destinasjonsport 4791), noe som gjør det ruterbart på tvers av lag 3 IP-nettverk. Denne ruterbarheten er en kritisk forbedring som gjør at RoCE v2 kan brukes i store datasentre og skymiljøer.
- RDMA over Ethernet-integrasjon: RoCE tilbyr en metode for å utføre RDMA over et standard Ethernet-nettverk. Det erstatter effektivt InfiniBand-nettverkslaget med IP- og UDP-headere, samtidig som det beholder det sentrale InfiniBand-transportlaget og RDMA-protokollen. Dette designet gjør at RoCE kan dra nytte av eksisterende Ethernet-infrastruktur.
- Pakkeformat: En RoCE v2-pakke inkluderer en IP-header og en UDP-header, som kapsler inn RDMA-transportprotokollen. Selv om UDP ikke garanterer rekkefølgen på pakkene, krever RoCE v2-standarden at pakker med samme kildeport og destinasjonsadresse ikke må omorganiseres.
- Kompromisset «det beste fra begge verdener»: RoCE v2s design er et strategisk kompromiss som har som mål å levere den høye ytelsen til RDMA på den fleksible, kostnadseffektive og allestedsnærværende Ethernet-plattformen. Selv om denne tilnærmingen gir bred kompatibilitet, skaper den en sentral utfordring: å sikre den tapsfrie ytelsen som RDMA trenger over et Ethernet-nettverk, som i utgangspunktet er tapsutsatt.
B. Ytelsesprofil
- Forsinkelse: RoCE Host Channel Adapters (HCA-er) kan oppnå svært lave forsinkelser, så lave som 1,3 mikrosekunder. På applikasjonsnivå reduserer RoCE forsinkelsen til rundt 5 mikrosekunder, en enorm forbedring sammenlignet med de 50 mikrosekundene som er typisk med TCP/IP. Selv om InfiniBand tilbyr noe lavere forsinkelse, er RoCEs ytelse utmerket for sanntidsapplikasjoner.
- Båndbredde: RoCE v2 støtter høy båndbredde, med hastigheter opp til 400 Gbps per port.
- CPU-avlastning: Som andre RDMA-protokoller omgår RoCE CPU-en for dataoverføringer. Denne avlastningen frigjør verdifulle CPU-ressurser til beregningsintensive oppgaver i stedet for nettverksbehandling.
- Tapsfri ytelse: For å matche ytelsen til InfiniBand er RoCE avhengig av et tapsfritt Ethernet-nettverk. Dette oppnås vanligvis ved å implementere Data Center Bridging (DCB)-funksjoner, spesielt Priority Flow Control (PFC) og Explicit Congestion Notification (ECN).
C. Infrastruktur og administrasjon
- Krav til maskinvare/programvare: RoCE fungerer med standard Ethernet-maskinvare som svitsjer og kabler, noe som gjør at organisasjoner kan bruke sin eksisterende infrastruktur. Det krever imidlertid RoCE-kompatible Host Channel Adapters (HCA-er) på endepunktene. Programvarestøtten er moden, med implementeringer i Mellanox OFED 2.3+ og integrert i Linux-kjernen v4.5+.
- Konfigurasjon av tapsfritt nettverk: Selv om RoCE bruker standard Ethernet, kan det være mer komplisert å opprette et tapsfritt DCB-nettverk enn å sette opp et InfiniBand-nettverk. Hver komponent, fra endepunkter til svitsjer, må konfigureres nøye. Dette inkluderer oppsett av Priority Flow Control (PFC), Enhanced Transmission Selection (ETS) og mekanismer for varsling om overbelastning. For å fungere på tvers av lag 3-nettverk, må disse tapsfrie egenskapene opprettholdes på tvers av rutere, ofte ved å mappe lag 2-prioritetsinnstillinger til lag 3 DSCP QoS-innstillinger.
- Hensyn ved administrasjon: RoCE kan administreres med standard Ethernet-verktøy. Det kan imidlertid være utfordrende å sikre konsekvent tapsfri ytelse og håndtere overbelastning i store RoCE v2-utrullinger, og det krever spesialisert ekspertise.
- Den skjulte kostnaden ved «kostnadseffektivitet»: RoCE kalles ofte «kostnadseffektivt» fordi det kan bruke eksisterende Ethernet-infrastruktur, men dette er en forenkling. Å oppnå InfiniBand-lignende ytelse krever et perfekt konfigurert, tapsfritt Ethernet-nettverk. Kompleksiteten ved å sette opp Data Center Bridging (DCB)-funksjoner som PFC og ECN kan være mye høyere enn å konfigurere et InfiniBand-nettverk. Denne kompleksiteten fører til høyere driftskostnader for nettverksdesign, feilsøking og administrasjon, og kan kreve dyrere Ethernet-svitsjer. Som et resultat kan de opprinnelige maskinvarebesparelsene fra RoCE bli oppveid av disse høyere driftskostnadene. En grundig analyse av total eierkostnad (TCO) er avgjørende for en nøyaktig sammenligning.
D. Sentrale bruksområder
RoCE v2 er en utmerket løsning for mange datasenter- og bedriftsapplikasjoner. Den er spesielt godt egnet for miljøer som trenger ultralav forsinkelse og høy gjennomstrømning, som AI-arbeidslaster, høyfrekvent handel og sanntidsanalyse. Den forbedrer også ytelsen for applikasjoner som er sterkt avhengige av databaser eller fil-I/O. I tillegg bidrar RoCE v2 til forretningskontinuitet og katastrofegjenoppretting ved å muliggjøre rask og effektiv datareplikering. Den utstrakte bruken i AI-treningsklynger understreker dens betydning i moderne databehandling.
IV. InfiniBand: Det spesialiserte høyytelsesnettverket
InfiniBand er et førsteklasses høyytelsessamband, designet fra grunnen av for å gi uovertruffen hastighet, minimal forsinkelse og høy pålitelighet for krevende databehandlingsmiljøer.
A. Arkitektoniske prinsipper
- Innebygd RDMA: InfiniBand ble bygget med RDMA integrert i hele protokollstakken, fra det fysiske laget og oppover. Denne designen, bygget fra bunnen av, sikrer at RDMA-operasjoner er svært effektive og skaper direkte og beskyttede datakanaler mellom noder uten CPU-involvering.
- Svitsjet nettverkstopologi: InfiniBand bruker en svitsjet nettverkstopologi for direkte punkt-til-punkt-forbindelser mellom enheter. Arkitekturen inkluderer Host Channel Adapters (HCA-er) på prosessorer og Target Channel Adapters (TCA-er) på perifere enheter, noe som gir effektiv kommunikasjon.
- Kredittbasert flytkontroll: En kjernefunksjon i InfiniBand er dens kredittbaserte flytkontroll. Denne maskinvarenivå-algoritmen garanterer tapsfri kommunikasjon ved å sikre at en sender kun overfører data hvis mottakeren har nok bufferplass (kreditter) til å ta imot dem. Denne innebygde påliteligheten forhindrer pakketap og skiller InfiniBand fra teknologier som trenger konfigurasjoner på høyere lag for å være tapsfrie.
- Proprietære standarder: InfiniBand følger proprietære standarder definert av InfiniBand Trade Association (IBTA), grunnlagt i 1999. Økosystemet domineres sterkt av NVIDIA (gjennom oppkjøpet av Mellanox), en ledende produsent av InfiniBand-adaptere og -svitsjer.
B. Ytelsesprofil
- Ultralav forsinkelse: InfiniBand tilbyr konsekvent den laveste forsinkelsen. Adapterforsinkelser kan være så lave som 0,5 mikrosekunder, og forsinkelsen fra svitsjport til svitsjport er rundt 100 nanosekunder – betydelig lavere enn de 230 nanosekundene til sammenlignbare Ethernet-svitsjer. På applikasjonslaget kan InfiniBand oppnå forsinkelser så lave som 2 mikrosekunder, sammenlignet med TCP/IPs 50 mikrosekunder.
- Høy gjennomstrømningskapasitet: InfiniBand støtter ekstremt høye datahastigheter. Moderne versjoner som HDR og NDR tilbyr opptil 200 Gbps og 400 Gbps per linje. Aggregerte linker kan oppnå enda høyere gjennomstrømning, og nå 800 Gbps (NDR) og til og med 1,6 Tbps (XDR).
- CPU-effektivitet: En sentral styrke ved InfiniBand er evnen til å levere ultralav forsinkelse og ekstremt høy båndbredde med nesten ingen CPU-bruk. Denne avlastningen av nettverksbehandling er en kritisk fordel for beregningstunge arbeidslaster.
- Ytelse gjennom design vs. ytelse gjennom konfigurasjon: InfiniBand og RoCE har en fundamental forskjell i sin tilnærming. InfiniBand ble designet fra grunnen av for RDMA, med sine fysiske lag og transportlag konstruert for pålitelighet på maskinvarenivå, inkludert en innebygd kredittbasert algoritme for tapsfri kommunikasjon. I motsetning til dette kjører RoCE på standard Ethernet og er avhengig av konfigurasjon av funksjoner som Priority Flow Control (PFC) og Explicit Congestion Notification (ECN) for å skape et tapsfritt nettverk. Dette betyr at InfiniBand gir garantert høy ytelse rett ut av boksen, mens RoCEs ytelse avhenger av kvaliteten på den underliggende Ethernet-konfigurasjonen.
C. Infrastruktur og administrasjon
- Dedikert maskinvare: InfiniBand krever spesialisert maskinvare, inkludert dedikerte Host Channel Adapters (HCA-er), svitsjer, rutere og proprietære kabler. Dette resulterer vanligvis i en høyere startinvestering sammenlignet med Ethernet-baserte løsninger.
- Sentralisert administrasjon: InfiniBand-nettverk administreres av en sentral Subnet Manager (SM), som beregner og distribuerer videresendingstabeller og administrerer konfigurasjoner som partisjoner og Quality of Service (QoS). Denne sentraliserte tilnærmingen kan forenkle administrasjonen i store klynger etter den første installasjonen.
- Spesialisert ekspertise: Å rulle ut og vedlikeholde InfiniBand-nettverk krever vanligvis spesialisert kunnskap, noe som kan øke driftskostnadene og skape en brattere læringskurve for IT-personalet.
- Økosystem: InfiniBand-økosystemet er modent, men dominert av NVIDIA/Mellanox.
D. Sentrale bruksområder
InfiniBand er bransjestandarden for høyytelsesdatabehandlingsmiljøer (HPC) og er det raskest voksende sambandet for disse applikasjonene. Det er den primære teknologien anbefalt av IBTA. Dens ultralave forsinkelse og høye båndbredde er avgjørende for krevende arbeidslaster som storskala AI/ML-modelltrening, stordataanalyse og massive databaseoperasjoner. Det er også avgjørende for store simuleringer (f.eks. værvarsling) og høyfrekvente finansielle tjenester, der hastighet og dataintegritet er kritisk. Per juni 2022 brukte 62 % av de 100 beste superdatamaskinene i verden InfiniBand.
V. iWARP: RDMA over standard TCP/IP
iWARP (Internet Wide Area RDMA Protocol) er en annen metode for å implementere RDMA, kjent for sin bruk av standard TCP/IP-protokollpakken.
A. Arkitektoniske prinsipper
- RDMA over TCP/IP: iWARP er en protokoll som implementerer RDMA over standard IP-nettverk. I motsetning til RoCE, som bruker UDP, er iWARP bygget på toppen av pålitelige transportprotokoller som TCP og SCTP.
- Sentrale komponenter: iWARPs drift er avhengig av flere komponenter. Direct Data Placement Protocol (DDP) muliggjør zero-copy-overføring ved å plassere data direkte i en applikasjons minne. Remote Direct Memory Access Protocol (RDMAP) leverer tjenestene for RDMA lese- og skriveoperasjoner. Et spesifikt tilpasningslag, Marker PDU Aligned (MPA) framing, er nødvendig for å muliggjøre DDP over TCP.
- Pålitelighet: En unik egenskap ved iWARP er at påliteligheten leveres av den underliggende TCP-protokollen. Dette er forskjellig fra RoCE v2, som bruker UDP og krever eksterne mekanismer som Data Center Bridging (DCB) for pålitelighet. Som et resultat støtter iWARP kun pålitelig, tilkoblet kommunikasjon.
B. Ytelsesprofil
- Sammenlignende forsinkelse og gjennomstrømning: Selv om iWARP har lavere forsinkelse enn tradisjonell TCP/IP, er ytelsen generelt dårligere enn RoCE. I 2011 var den laveste iWARP HCA-forsinkelsen 3 mikrosekunder, mens RoCE HCA-er nådde 1,3 mikrosekunder. Ytelsestester viser konsekvent at RoCE leverer meldinger mye raskere enn iWARP, med mer enn 2 ganger høyere gjennomstrømning ved 40GbE og 5 ganger høyere ved 10GbE.
- CPU-avlastning: Som andre RDMA-protokoller minimerer iWARP CPU-belastningen ved å muliggjøre direkte minneoverføringer. Den kan bruke TCP Offload Engines (TOE) med RDMA-maskinvare for å oppnå zero-copy-resultater og redusere CPU-involveringen ytterligere.
C. Infrastruktur og administrasjon
- Kompatibilitet med standard Ethernet: En stor fordel med iWARP er evnen til å kjøre over standard Ethernet-infrastruktur med minimale endringer i det eksisterende nettverket. Dette gjør at organisasjoner kan utnytte sine nåværende investeringer.
- Krav til maskinvare: Til tross for kompatibiliteten med standard Ethernet-svitsjer, krever iWARP fortsatt iWARP-kompatible nettverkskort på endepunktene.
- Integrasjonsaspekter: iWARP er integrert i store operativsystemer som Microsoft Windows Server og moderne Linux-kjerner. Dette støtter applikasjoner som SMB Direct, iSCSI Extensions for RDMA (iSER) og Network File System over RDMA (NFS over RDMA).
- Administrasjonsutfordringer: Det kan være vanskelig å administrere iWARP-trafikk. Den deler TCPs portområde, noe som kompliserer flytkontroll og gjør det vanskelig å identifisere RDMA-trafikk. Samlet sett anses iWARP som vanskeligere å administrere enn RoCE.
D. Markedsrelevans
- Begrenset adopsjon: iWARP er en «uvanlig» eller «mindre brukt» RDMA-implementering sammenlignet med InfiniBand og RoCE v2. Løsningene har hatt «begrenset suksess» på grunn av utfordringer med implementering og utrulling.
- Paradokset ved TCP-avhengighet: iWARPs designvalg om å legge RDMA over TCP gir innebygd pålitelighet og kompatibilitet, men hindrer det paradoksalt nok fra å fullt ut oppnå kjernefordelene ved RDMA. Den iboende overheaden i TCP-protokollen, selv med maskinvareavlastning, ser ut til å hindre iWARP i å nå den ultralave forsinkelsen og høye gjennomstrømningen til InfiniBand eller RoCE. Dette ytelseskompromisset har ført til begrenset markedsadopsjon.
VI. Sammenlignende analyse: RoCE v2 vs. InfiniBand vs. iWARP vs. standard Ethernet
En detaljert sammenligning av ytelse, infrastruktur og driftsmessige målinger er nøkkelen til å velge riktig høyytelsessamband.
A. Ytelsestester
Ytelsen til disse sambandene varierer betydelig, spesielt når det gjelder forsinkelse, båndbredde og CPU-utnyttelse.
- Forsinkelse:
- InfiniBand: Tilbyr den laveste forsinkelsen. Forsinkelsen fra svitsjport til svitsjport er rundt 100 nanosekunder, mens adapterforsinkelsen er så lav som 0,5 til 1,3 mikrosekunder. Forsinkelsen på applikasjonsnivå kan være så lav som 2 mikrosekunder.
- RoCE v2: Gir ultralav forsinkelse. Ethernet-svitsj-forsinkelsen er rundt 230 nanosekunder, mens HCA-forsinkelsen kan være så lav som 1,3 mikrosekunder. Forsinkelsen på applikasjonsnivå er typisk rundt 5 mikrosekunder.
- iWARP: Har høyere forsinkelse enn RoCE, med HCA-forsinkelse rapportert til rundt 3 mikrosekunder (2011-data). Den yter konsekvent dårligere enn RoCE.
- Standard TCP/IP: Har den høyeste forsinkelsen, med enveis forsinkelse fra 10 til 55 millisekunder. Forsinkelsen på applikasjonsnivå er typisk rundt 50 mikrosekunder.
- Båndbredde:
- InfiniBand: Støtter svært høy båndbredde. Moderne versjoner som NDR tilbyr opptil 400 Gbps per port, og XDR når opptil 800 Gbps. Fremtidig GDR er anslått til å nå 1,6 Tbps.
- RoCE v2: I stand til høy båndbredde, og støtter opptil 400 Gbps per port.
- iWARP: Har generelt lavere gjennomstrømning enn RoCE.
- Standard TCP/IP: Gjennomstrømningen er ofte begrenset av protokoll-overhead og retransmisjoner, noe som gjør det vanskelig å utnytte høy båndbredde effektivt.
- CPU-avlastning:
- InfiniBand, RoCE v2, iWARP: Alle tre RDMA-teknologiene avlaster betydelig CPU-arbeid ved å omgå operativsystemet, noe som frigjør CPU-ressurser til andre oppgaver.
- Standard TCP/IP: Medfører høy CPU-belastning fordi kjernen er sterkt involvert i databehandling.
- Mekanisme for tapsfrihet:
- InfiniBand: Har innebygd, kredittbasert flytkontroll på maskinvarenivå, som garanterer tapsfri kommunikasjon.
- RoCE v2: Avhenger av en tapsfri Ethernet-konfigurasjon, ved hjelp av Data Center Bridging (DCB)-funksjoner som PFC og ECN. Den har også en ende-til-ende pålitelig leveringsmekanisme med maskinvarebaserte retransmisjoner.
- iWARP: Bruker TCPs innebygde pålitelige transport for dataintegritet.
- Standard TCP/IP: Bruker en «best-effort» leveringsmodell, og er avhengig av retransmisjoner på høyere lag for å sikre pålitelighet, noe som øker forsinkelsen.
Følgende tabell oppsummerer ytelsesegenskapene:
| Egenskap | InfiniBand | RoCE v2 | iWARP | Standard Ethernet/TCP/IP |
|---|---|---|---|---|
| Kjerneteknologi | Innebygd RDMA | RDMA over Ethernet (UDP/IP) | RDMA over Ethernet (TCP/IP) | Tradisjonell lagdelt protokoll |
| Typisk applikasjonsforsinkelse (µs) | 2 | 5 | >3 (2011 HCA) | 50 |
| Forsinkelse svitsjport-til-port (ns) | 100 | 230 | I/A (avhenger av Ethernet) | Typisk høyere, variabel |
| Maks båndbredde (Gbps per port/link) | 400 (NDR), 800 (XDR), 1,6T (GDR) | 400 | Generelt lavere enn RoCE | 400+ (men begrenset av protokoll-overhead) |
| CPU-overhead | Nesten null | Veldig lav | Lav | Høy |
| Tapsfri mekanisme | Innebygd kredittbasert flytkontroll | Krever tapsfri Ethernet (PFC, ECN) | TCPs pålitelige transport | Best-Effort, avhengig av retransmisjoner |
| Ruterbarhet (L2/L3) | L3 (via Subnet Manager) | L3 (Ruterbar RoCE) | L3 | L3 (Standard IP-ruting) |
B. Infrastruktur og økosystem
- Maskinvareavhengigheter:
- InfiniBand: Krever et komplett sett med spesialisert maskinvare, inkludert InfiniBand HCA-er, svitsjer og proprietære kabler.
- RoCE v2: Krever RoCE-kompatible HCA-er, men fungerer over standard Ethernet-svitsjer og -kabler, noe som tillater integrasjon med eksisterende nettverk.
- iWARP: Krever iWARP-kompatible nettverkskort, men kan bruke standard Ethernet-svitsjer.
- Standard Ethernet: Bruker bredt tilgjengelige, standard Ethernet-NIC-er og -svitsjer.
- Leverandørbinding:
- InfiniBand: Økosystemet er begrenset og dominert av Mellanox (NVIDIA), noe som kan skape bekymring for leverandørbinding.
- RoCE v2: Drar nytte av et stort og konkurransedyktig Ethernet-økosystem med flere leverandører. Noen tilbyr «Universal RDMA»-NIC-er som støtter både RoCE og iWARP, noe som reduserer bindingen.
- iWARP: Drar også nytte av det brede Ethernet-økosystemet, med støtte fra leverandører som Intel og Chelsio.
- Interoperabilitet:
- InfiniBand: Som en proprietær standard må alle komponenter følge IBTA-spesifikasjonene for å sikre at de fungerer sammen.
- RoCE v2: Dets grunnlag på standard Ethernet gir bredere interoperabilitet og enklere integrasjon med eksisterende nettverk.
- iWARP: Basert på standard IETF RFC-er for TCP/IP, noe som sikrer høy kompatibilitet innenfor standard IP-nettverk.
C. Kostnadseffektivitet
- Startinvestering:
- InfiniBand: Krever vanligvis en høyere startinvestering på grunn av spesialisert maskinvare og lisensiering. For store AI-klynger kan InfiniBand-svitsjer være betydelig dyrere enn RoCE-svitsjer.
- RoCE v2: Er ofte et mer kostnadseffektivt alternativ fordi det kan integreres med eksisterende Ethernet, noe som reduserer kostnadene for ny maskinvare. Besparelsene på svitsjer for store AI-klynger kan være betydelige (49 % til 70 % sammenlignet med InfiniBand).
- iWARP: Bruker standard Ethernet-svitsjer, men krever spesialiserte adaptere, som fortsatt kan utgjøre en betydelig kostnad.
- Standard Ethernet: Generelt det rimeligste alternativet på grunn av standardisert maskinvare.
- Total eierkostnad (TCO):
- InfiniBand: Har en tendens til å ha en høyere TCO på grunn av spesialisert maskinvare, vedlikehold og behovet for opplæring av personalet i en proprietær teknologi.
- RoCE v2: Kan ha en lavere TCO, men dette er betinget. Kompleksiteten ved å konfigurere og vedlikeholde et tapsfritt Ethernet-nettverk kan øke driftskostnadene betydelig. Mens de opprinnelige maskinvarekostnadene kan være lavere, kan den spesialiserte kunnskapen og innsatsen som kreves for design, feilsøking og vedlikehold oppveie disse besparelsene. Derfor avhenger «kostnadseffektivitet» både av maskinvarepris og organisasjonens ekspertise og administrasjonsbyrde.
- iWARP: Integrasjons- og administrasjonsutfordringer kan påvirke den totale TCO-en.
Følgende tabell gir en sammenlignende oversikt over infrastruktur- og kostnadshensyn:
| Egenskap | InfiniBand | RoCE v2 | iWARP | Standard Ethernet/TCP/IP |
|---|---|---|---|---|
| Nødvendig nettverksmaskinvare | Dedikerte IB NIC-er, IB-svitsjer, IB-kabler | RoCE-kompatible NIC-er, Standard Ethernet-svitsjer/-kabler | iWARP-kompatible NIC-er, Standard Ethernet-svitsjer/-kabler | Standard Ethernet-NIC-er, Ethernet-svitsjer/-kabler |
| Nettverkskompatibilitet | Proprietær (IBTA-standard) | Standard Ethernet (IEEE) | Standard Ethernet (IETF RFC-er) | Standard Ethernet (IEEE) |
| Administrasjonskompleksitet | Vanskelig (Spesialisert SM) | Vanskelig (Tapsfri Ethernet-konfig.) | Vanskeligere enn RoCE | Enkel |
| Startkostnad for maskinvare (Relativ) | Høy | Moderat (Utnytter eksisterende) | Moderat (Spesialiserte NIC-er) | Lav |
| Total eierkostnad (Relativ) | Høyere | Lavere (Betinget av administrasjon) | Variabel (Integrasjonsutfordringer) | Lavest |
| Leverandørøkosystem | Begrenset (NVIDIA/Mellanox-dominant) | Bredt (Flere Ethernet-leverandører) | Bredt (Flere Ethernet-leverandører) | Veldig bredt |
D. Skalerbarhet og fleksibilitet
- Rutingmuligheter:
- InfiniBand: Bruker et svitsjet nettverk med ruting som administreres sentralt av en Subnet Manager (SM). Det er svært skalerbart og støtter klynger med over 100 000 noder.
- RoCE v2: Dets UDP/IP-innkapsling gjør at det kan rutes over lag 3 IP-nettverk, noe som gjør det skalerbart på tvers av store nettverk og skymiljøer. Det støtter også ECMP for effektiv lastbalansering.
- iWARP: Er ruterbart over IP-nettverk.
- Standard Ethernet: Svært skalerbart og fleksibelt, men kan kreve avanserte konfigurasjoner som spine-leaf-arkitekturer for HPC-nivå effektivitet.
- Nettverkstopologier:
- InfiniBand: Optimalisert for HPC/AI-klynger, og støtter høyytelsestopologier som Fat Tree, Dragonfly+ og flerdimensjonal Torus.
- RoCE v2: Dets IP-baserte ruting gjør det tilpasningsdyktig til nesten enhver nettverkstopologi.
- Standard Ethernet: Støtter et bredt spekter av topologier, inkludert stjerne og mesh.
E. Pålitelighet og overbelastningskontroll
- Pålitelighet:
- InfiniBand: Gir innebygd pålitelighet på maskinvarenivå med sin kredittbaserte flytkontroll, som garanterer tapsfri kommunikasjon.
- RoCE v2: Avhenger av en tapsfri Ethernet-konfigurasjon ved hjelp av PFC og ETS. Den inkluderer også en ende-til-ende pålitelig leveringsmekanisme med maskinvarebasert pakkere-transmisjon.
- iWARP: Drar nytte av TCPs iboende pålitelighet, som gir feilretting og retransmisjoner.
- Standard TCP/IP: Fokuserer på pålitelighet gjennom retransmisjoner, noe som kan legge til betydelig forsinkelse og redusere gjennomstrømning.
- Overbelastningskontroll:
- InfiniBand: Definerer sine egne mekanismer for overbelastningskontroll basert på FECN/BECN-merking.
- RoCE v2: Implementerer en protokoll for overbelastningskontroll ved hjelp av IP ECN-biter og Congestion Notification Packets (CNP-er). Bransjepraksiser som DCQCN brukes også.
- iWARP: Avhenger av TCPs etablerte algoritmer for overbelastningskontroll.
F. Egnethet for ulike applikasjoner
- InfiniBand: Det ideelle valget for miljøer som trenger høyest mulig datagjennomstrømning og lavest mulig forsinkelse. Dette inkluderer vitenskapelig forskning, finansiell modellering, storskala HPC-klynger og de mest krevende AI/ML-treningsarbeidslastene.
- RoCE v2: Foretrukket av bedrifter som ønsker å bruke sin eksisterende Ethernet-infrastruktur, samtidig som de trenger høy ytelse. Det er godt egnet for lagringsnettverk, sanntidsanalyse og skytjenester, og tilbyr en balanse mellom ytelse og kostnad.
- iWARP: Kan vurderes for nisjeapplikasjoner der eksisterende TCP/IP-infrastruktur er et strengt krav og ultralav forsinkelse ikke er topp prioritet. Det er egnet for applikasjoner som NVMeoF, iSER, SMB Direct og NFS over RDMA, eller som et lavkostalternativ for testmiljøer.
- Standard Ethernet/TCP/IP: Forblir det beste valget for generell nettverksbruk, som bedrifts-LAN og skyinfrastruktur der ekstrem HPC/AI-ytelse ikke er hovedmålet.
- Trilemmaet ytelse-kostnad-kompleksitet: Denne analysen avslører et fundamentalt kompromiss når man velger et samband: et trilemma mellom ytelse, kostnad og kompleksitet. InfiniBand tilbyr topp ytelse og innebygd pålitelighet, men til en høyere kostnad. RoCE v2 gir nær-InfiniBand-ytelse på Ethernet, og kan potensielt senke maskinvarekostnadene, men legger til betydelig konfigurasjonskompleksitet. iWARP tilbyr RDMA over TCP, men med lavere ytelse. Standard Ethernet er kostnadseffektivt, men mangler ytelsen for krevende arbeidslaster. Det finnes ingen enkelt «beste» løsning; det riktige valget krever en balansering av disse tre faktorene basert på spesifikke behov og kapabiliteter.
Følgende tabell skisserer egnetheten for hver teknologi:
| Teknologi | Primære bruksområder | Best egnet for | Mindre egnet for |
|---|---|---|---|
| InfiniBand | HPC, AI/ML-trening, stordataanalyse, finansielle tjenester (arbitrasje) | Miljøer som krever den absolutt laveste forsinkelsen, høyeste båndbredden og garantert tapsfrihet | Kostnadssensitive generelle bedriftsnettverk, miljøer uten spesialisert IT-ekspertise |
| RoCE v2 | Datasentre, skytjenester, lagringsnettverk, sanntidsanalyse, AI/ML-inferens | Organisasjoner som utnytter eksisterende Ethernet-infrastruktur for høy ytelse; balanse mellom kostnad og ytelse | Miljøer der garantert tapsfrihet er et absolutt krav uten omfattende konfigurasjonsekspertise |
| iWARP | NVMeoF, iSER, SMB Direct, NFS over RDMA, test-/utviklingsmiljøer | Spesifikke applikasjoner som krever RDMA over eksisterende TCP/IP, der absolutt toppytelse ikke er kritisk | Storskala HPC/AI-klynger, forsinkelsessensitive sanntidsapplikasjoner |
| Standard Ethernet/TCP/IP | Generelt bedriftsnettverk, LAN, internett-tilkobling, skyinfrastruktur | Allestedsnærværende, kostnadseffektivt og fleksibelt generelt nettverk | Høyytelsesdatabehandling, AI/ML-trening og andre forsinkelsessensitive, CPU-intensive arbeidslaster |
VII. Nye høyytelsessamband og fremtidige trender
Landskapet for høyytelsesnettverk er i stadig endring, drevet av dataintensive arbeidslaster og behovet for større effektivitet. Utover etablerte RDMA-teknologier former nye samband og trender fremtiden for datasentre.
A. Compute Express Link (CXL)
CXL er et moderne samband bygget på det fysiske PCIe-laget, designet for generelle datasystemer. Hovedmålet er å muliggjøre rask, sømløs kommunikasjon mellom CPU-er og akseleratorer som GPU-er og FPGA-er.
Sentrale funksjoner i CXL inkluderer høyhastighets dataoverføring, bred kompatibilitet og effektiv minnedeling gjennom Cache Coherency. Det støtter tre enhetstyper (for akseleratorer, cache-koherente enheter og minneutvidere) og fleksible topologier. CXL/PCIe Gen5 tilbyr en toppgjennomstrømning på 512 Gbps med en forsinkelse på rundt 500 nanosekunder. Mens InfiniBand har lavere forsinkelse (rundt 100 nanosekunder), er CXL overlegen for minnetilgang med lav forsinkelse der cache-koherens er kritisk.
En viktig utvikling var sammenslåingen av Gen-Z- og CXL-konsortiene i 2022, som posisjonerer CXL som den eneste bransjestandarden for denne klassen av minnefokuserte samband.
CXL representerer et skifte fra tradisjonell node-til-node-nettverkskommunikasjon (som RoCE og InfiniBand) mot minnekoherens og ressursdisaggregering. Dette betyr at for visse arbeidslaster kan CXL bli det primære sambandet, som komplementerer eller reduserer behovet for tradisjonelle nettverksstrukturer.
B. NVLink
NVLink er NVIDIAs proprietære høy båndbredde, lav forsinkelse-samband, utviklet for direkte GPU-til-GPU- og GPU-til-CPU-kommunikasjon innenfor sine akselererte databehandlingsplattformer.
NVLink er en sentral del av NVIDIAs løsninger for AI og HPC, som for eksempel GB200- og GB300-arkitekturene. Det er avgjørende for å skalere AI-modelltrening ved å tilby ekstremt raske dataoverføringer mellom GPU-er.
NVLink viser en trend mot vertikal integrasjon og spesialisert ytelse. Dets proprietære natur står i kontrast til åpne standarder som RoCE eller InfiniBand. Dette designet maksimerer ytelsen innenfor en enkelt leverandørs maskinvarestakk. Mens InfiniBand og RoCE håndterer generell nettverkskommunikasjon mellom noder, optimaliserer NVLink kommunikasjonen innenfor og mellom GPU-systemer, og skaper en lagdelt sambandsarkitektur der ulike teknologier tjener ulike behov.
C. Fremtidige Ethernet-hastigheter
Ethernet har utviklet seg fra 10 Mbps til 400 Gbps, og utviklingen fortsetter med 800GbE- og 1.6TbE-standarder i horisonten. Disse raskere hastighetene vil være avgjørende for neste generasjons applikasjoner som kvantedatabehandling, avansert AI og immersive teknologier.
Den kontinuerlige økningen i Ethernet-hastigheter gagner RoCE direkte. Fordi RoCE er bygget på Ethernet, drar det automatisk nytte av disse fremskrittene, noe som hjelper det med å forbli konkurransedyktig med InfiniBand. Veksten i skytjenester driver allerede utrullingen av 200GbE og 400GbE, med 800GbE og 1.6TbE som de neste.
Den vedvarende relevansen til Ethernet og RoCE er nært knyttet sammen. Etter hvert som Ethernet-hastighetene øker, blir RoCE en enda sterkere konkurrent for høyytelsesdatasentre, spesielt for organisasjoner som ønsker å utnytte sine eksisterende Ethernet-investeringer og unngå proprietære økosystemer.
D. Disaggregert databehandling og fotonikk
- Disaggregert databehandling: Denne nye tilnærmingen har som mål å forbedre datasentereffektiviteten ved å frikoble ressurser som beregning, lagring og minne fra tradisjonelle servere. Disse ressursene blir deretter satt sammen på nytt i fleksible bassenger koblet sammen av avanserte nettverk. Et sentralt resultat er at kommunikasjon som en gang skjedde inne i en server, nå krysser nettverket, noe som dramatisk øker belastningen og gjør ultralav forsinkelse kritisk. Denne trenden forsterker behovet for høyytelsessamband som RoCE og InfiniBand og driver utviklingen av nye som CXL.
- Fotonikk i datasenternettverk: Silisiumfotonikk integrerer optiske komponenter på silisiumbrikker, noe som muliggjør høyhastighets, lavenergi optiske samband. Denne teknologien tilbyr mye raskere dataoverføringshastigheter (over 100 Gbps), lavere forsinkelse og bedre energieffektivitet enn tradisjonell kobber. Det blir avgjørende for å møte de økende trafikkravene i datasentre og muliggjøre neste generasjon høyhastighets-Ethernet.
Forholdet mellom disse trendene er symbiotisk. Disaggregerte arkitekturer krever avanserte nettverk, som samband som RoCE, InfiniBand og CXL leverer. Å oppnå de nødvendige hastighetene for disse sambandene, spesielt for fremtidige 800GbE- og 1.6TbE-standarder, vil i sin tur være avhengig av teknologier som silisiumfotonikk.
VIII. Anbefalinger og konklusjon
Å velge et høyytelsessamband er en kritisk strategisk beslutning som må være i tråd med en organisasjons spesifikke behov, budsjett, infrastruktur og langsiktige visjon.
- For maksimal rå ytelse og virksomhetskritisk HPC/AI: InfiniBand er den klare gullstandarden. Dets innebygde RDMA, kredittbaserte flytkontroll og skreddersydde design leverer den laveste forsinkelsen og høyeste gjennomstrømningen med garantert tapsfri ytelse. Organisasjoner med budsjett og ekspertise bør velge InfiniBand for storskala klynger der hvert mikrosekund teller.
- For høy ytelse med kostnadseffektivitet og Ethernet-integrasjon: RoCE v2 er et sterkt og stadig mer populært alternativ. Det gir betydelige ytelsesforbedringer over TCP/IP og kan nærme seg InfiniBands ytelse ved å bruke eksisterende Ethernet-infrastruktur. Det er ideelt for organisasjoner som oppgraderer sine datasentre uten en fullstendig overhaling. Dette valget krever imidlertid en forpliktelse til å konfigurere og administrere et tapsfritt Ethernet-nettverk nøye.
- For nisjeapplikasjoner eller eldre RDMA over TCP-miljøer: iWARP kan være egnet i spesifikke tilfeller, spesielt der bruk av eksisterende TCP/IP-infrastruktur er et absolutt krav og topp ytelse ikke er det primære målet. Dets lavere ytelse og høyere administrasjonskompleksitet begrenser imidlertid bruken i moderne høyytelsesutrullinger.
- For generell nettverksbruk: Standard Ethernet/TCP/IP forblir det vanligste og mest kostnadseffektive valget for miljøer uten ekstreme ytelseskrav. Dets brukervennlighet og standardiserte maskinvare gjør det perfekt for generelle bedriftsnettverk, LAN og standard skyinfrastruktur.
- Vurdering av nye teknologier for fremtidssikring: Organisasjoner bør følge med på utviklingen av CXL for minnesentriske og disaggregerte arkitekturer, da det komplementerer tradisjonelle nettverksstrukturer ved å optimalisere ressursutnyttelse. Tilsvarende er NVLink kritisk for å optimalisere kommunikasjonen innenfor NVIDIAs GPU-tunge systemer. Disse teknologiene viser en diversifisering av samband for ulike lag i beregningshierarkiet. I tillegg vil utviklingen av 800GbE og 1.6TbE Ethernet, sammen med fremskritt innen fotonikk, fortsette å gjøre RoCE til et enda kraftigere alternativ.
Konklusjonen er at landskapet for høyytelsesnettverk er komplekst, drevet av kravene fra AI, HPC og skiftet mot disaggregert databehandling. Mens InfiniBand leder an i absolutt ytelse for spesialiserte miljøer, gir RoCE v2 et kraftig og fleksibelt alternativ som bygger bro mellom RDMAs fordeler og Ethernets utbredelse. Fremveksten av CXL og NVLink indikerer en strategisk diversifisering av samband, som optimaliserer ulike kommunikasjonslag. Den optimale løsningen vil alltid være en strategisk balanse mellom ytelseskrav, kostnader, eksisterende infrastruktur og en fremtidsrettet visjon.




