I. Resumé
Moderne datacentre skal understøtte krævende workloads som High-Performance Computing (HPC), kunstig intelligens/maskinlæring (AI/ML) og Big Data-analyse. Disse applikationer kræver ultra-lav latency, høj båndbredde og minimal CPU-belastning. Traditionelle netværksprotokoller som TCP/IP kan ikke imødekomme disse behov på grund af deres store overhead og høje latency.
Remote Direct Memory Access (RDMA) er nøgleteknologien, der muliggør højtydende interconnects. RDMA tillader netværksforbundne computere at overføre data direkte mellem deres hukommelse uden at involvere deres operativsystemer eller CPU'er (hukommelse-til-hukommelse). Denne proces reducerer latency og CPU-belastning dramatisk.
- InfiniBand er et specialbygget, proprietært fabric designet til den højest mulige ydeevne og tabsfrit fra fødslen.
- RoCE v2 (RDMA over Converged Ethernet) anvender RDMA-fordelene over standard Ethernet, hvilket tilbyder en routable og mere omkostningseffektiv løsning, men det kræver specifikke konfigurationer for at være tabsfrit.
- iWARP er en anden RDMA-over-Ethernet-løsning baseret på TCP, men den er generelt mindre udbredt og tilbyder lavere ydeevne end RoCE v2.
At vælge det rette interconnect er en strategisk beslutning, der afhænger af ydeevnebehov, budget, eksisterende infrastruktur og skalerbarhedsmål. Denne rapport analyserer disse teknologier, sammenligner dem med standard Ethernet/TCP/IP og udforsker nye alternativer som CXL og NVLink for at hjælpe med at guide denne kritiske beslutning.
II. Introduktion til højtydende netværk og RDMA
Den digitale verden i dag er kendetegnet ved en eksponentiel vækst i datatunge applikationer som High-Performance Computing (HPC), kunstig intelligens/maskinlæring (AI/ML) og Big Data-analyse. Disse workloads skal flytte enorme datasæt hurtigt og effektivt mellem beregningsknuder og lager. For eksempel er AI-applikationer meget følsomme over for dataintegritet og kræver tabsfrie netværk, hvor en enkelt tabt besked kan ødelægge en hel træningskørsel. Høj båndbredde er også afgørende for, at disse applikationer kan behandle data effektivt.
Begrænsninger ved traditionelt TCP/IP Ethernet til højtydende applikationer
Selvom traditionelt TCP/IP Ethernet er pålideligt til generelle netværksformål, har det store begrænsninger for højtydende applikationer:
- Høj latency og CPU-overhead: TCP/IP's design sender data gennem flere softwarelag i operativsystemets kerne, hvilket kræver betydelig CPU-involvering. Denne proces tilføjer betydelig latency (typisk flere titalls mikrosekunder) og belaster CPU'en tungt. For latency-følsomme applikationer bliver dette en stor flaskehals, da CPU'en bruger sin tid på at håndtere netværkstrafik i stedet for at køre applikationen. Denne "CPU-skat" fra kontekstskift og datakopiering er en primær årsag til at anvende RDMA-teknologier, som aflaster netværksbehandling og frigør CPU'en til applikationsopgaver.
- Begrænsninger i gennemløb: Flere faktorer begrænser TCP's effektive gennemløb, herunder transmissionsvinduets størrelse, segmentstørrelse og pakketab. Standard TCP-vinduesstørrelsen (ofte begrænset til 65.535 bytes) kan forhindre fuld udnyttelse af links med høj båndbredde, især på netværk med højere latency. Derudover introducerer TCP's centrale pålidelighedsmekanisme – genfremsendelse af pakker – forsinkelser og bruger ekstra båndbredde, hvilket skader ydeevnen i overbelastede eller tabsfyldte netværk.
- Udfordringer med skalerbarhed: Selvom TCP/IP skalerer godt til store netværk, prioriterer dets design generel pålidelighed over rå ydeevne. Dette gør det mindre effektivt i scenarier, der kræver ekstremt gennemløb og minimal latency, såsom storskala HPC-klynger eller AI-inferens i realtid.
Grundlæggende om Remote Direct Memory Access (RDMA) og dets kernefordele
Remote Direct Memory Access (RDMA) blev udviklet for at overvinde TCP/IP's begrænsninger i højtydende miljøer. Dets primære fordele kommer fra at omgå CPU'en og operativsystemet under dataoverførsler:
- Direkte hukommelsesadgang (Zero-Copy): RDMA overfører data direkte fra en computers hukommelse til en andens uden at involvere nogen af systemernes CPU eller OS. Denne "zero-copy"-tilgang eliminerer mellemliggende databuffere og kontekstskift, som er store kilder til overhead i traditionelle netværk.
- Reduceret latency og CPU-belastning: Ved at omgå CPU'en og OS reducerer RDMA kommunikations-latency drastisk og frigør CPU-cyklusser. Dette fører direkte til hurtigere beregninger og bedre databehandling i realtid. For eksempel kan applikations-latency falde fra omkring 50 mikrosekunder med TCP/IP til så lavt som 2-5 mikrosekunder med RDMA.
- Højere udnyttelse af båndbredde: Den effektive datasti og reducerede overhead i RDMA gør det muligt for applikationer at udnytte den tilgængelige netværksbåndbredde bedre, hvilket resulterer i højere effektivt gennemløb.
- Vigtige implementeringer: De vigtigste RDMA-teknologier, der bruges i dag, er InfiniBand, RoCE (version 1 og 2) og iWARP.
III. RoCE v2: RDMA over Converged Ethernet
RoCE v2 er et stort skridt fremad inden for højtydende netværk, der udvider fordelene ved RDMA til det udbredte Ethernet-økosystem.
A. Arkitektoniske principper
- Udvikling fra RoCE v1: RoCE v1 var en Lag 2-protokol (Ethertype 0x8915), hvilket begrænsede den til et enkelt Ethernet broadcast-domæne og dermed dens skalerbarhed. RoCE v2 løser dette ved at operere på internetlaget. Det indkapsler RDMA-trafik i UDP/IP-pakker (ved hjælp af UDP-destinationsport 4791), hvilket gør det routable på tværs af Lag 3 IP-netværk. Denne routabilitet er en afgørende forbedring, der gør det muligt at bruge RoCE v2 i storskala datacentre og cloud-miljøer.
- RDMA over Ethernet-integration: RoCE giver en metode til at udføre RDMA over et standard Ethernet-netværk. Det erstatter effektivt InfiniBand-netværkslaget med IP- og UDP-headere, mens det bibeholder det centrale InfiniBand-transportlag og RDMA-protokollen. Dette design gør det muligt for RoCE at drage fordel af eksisterende Ethernet-infrastruktur.
- Pakkeformat: En RoCE v2-pakke inkluderer en IP-header og en UDP-header, som indkapsler RDMA Transport Protocol. Selvom UDP ikke garanterer pakkernes rækkefølge, kræver RoCE v2-standarden, at pakker med samme kildeport og destinationsadresse ikke må blive omarrangeret.
- Kompromiset "det bedste fra begge verdener": RoCE v2's design er et strategisk kompromis, der sigter mod at levere den høje ydeevne fra RDMA på den fleksible, omkostningseffektive og allestedsnærværende Ethernet-platform. Selvom denne tilgang tilbyder bred kompatibilitet, skaber den en central udfordring: at sikre den tabsfrie ydeevne, som RDMA har brug for, over et Ethernet-netværk, der i sagens natur er tabsfyldt.
B. Ydelsesprofil
- Latency: RoCE Host Channel Adapters (HCA'er) kan opnå meget lave latencies, helt ned til 1,3 mikrosekunder. På applikationsniveau reducerer RoCE latency til omkring 5 mikrosekunder, en enorm forbedring i forhold til de 50 mikrosekunder, der er typiske med TCP/IP. Selvom InfiniBand tilbyder en lidt lavere indbygget latency, er RoCE's ydeevne fremragende til realtidsapplikationer.
- Båndbredde: RoCE v2 understøtter høj båndbredde med hastigheder op til 400 Gbps pr. port.
- CPU-aflastning: Ligesom andre RDMA-protokoller omgår RoCE CPU'en ved dataoverførsler. Denne aflastning frigør værdifulde CPU-ressourcer til beregningstunge opgaver i stedet for netværksbehandling.
- Tabsfrit ydeevne: For at matche ydeevnen fra InfiniBand er RoCE afhængig af et tabsfrit Ethernet-netværk. Dette opnås typisk ved at implementere Data Center Bridging (DCB)-funktioner, især Priority Flow Control (PFC) og Explicit Congestion Notification (ECN).
C. Infrastruktur og administration
- Hardware-/softwarekrav: RoCE fungerer med standard Ethernet-hardware som switche og kabler, hvilket giver organisationer mulighed for at bruge deres eksisterende infrastruktur. Det kræver dog RoCE-kompatible Host Channel Adapters (HCA'er) i endepunkterne. Softwareunderstøttelsen er moden, med implementeringer i Mellanox OFED 2.3+ og integreret i Linux Kernel v4.5+.
- Konfiguration af tabsfrit netværk: Selvom RoCE bruger standard Ethernet, kan det være mere komplekst at skabe et tabsfrit DCB-netværk end at opsætte et InfiniBand-netværk. Hver komponent, fra endepunkter til switche, skal konfigureres omhyggeligt. Dette inkluderer opsætning af Priority Flow Control (PFC), Enhanced Transmission Selection (ETS) og mekanismer til overbelastningsmeddelelser. For at fungere på tværs af Lag 3-netværk skal disse tabsfrie egenskaber opretholdes på tværs af routere, ofte ved at mappe Lag 2-prioritetsindstillinger til Lag 3 DSCP QoS-indstillinger.
- Administrationshensyn: RoCE kan administreres med standard Ethernet-værktøjer. Det kan dog være en udfordring at sikre konsekvent tabsfrit ydeevne og håndtere overbelastning i storskala RoCE v2-implementeringer, og det kræver specialiseret ekspertise.
- Den skjulte omkostning ved "omkostningseffektivitet": RoCE kaldes ofte "omkostningseffektivt", fordi det kan bruge eksisterende Ethernet-infrastruktur, men dette er en forsimpling. At opnå en ydeevne som InfiniBand kræver et perfekt konfigureret tabsfrit Ethernet-netværk. Kompleksiteten ved at opsætte Data Center Bridging (DCB)-funktioner som PFC og ECN kan være meget højere end at konfigurere et InfiniBand-netværk. Denne kompleksitet fører til højere driftsomkostninger til netværksdesign, fejlfinding og administration, og kan kræve dyrere Ethernet-switche. Som følge heraf kan de indledende hardwarebesparelser fra RoCE blive opvejet af disse højere driftsomkostninger. En grundig analyse af de samlede ejeromkostninger (TCO) er afgørende for en nøjagtig sammenligning.
D. Vigtige applikationer
RoCE v2 er en fremragende løsning til mange datacenter- og enterprise-applikationer. Det er især velegnet til miljøer, der har brug for ultra-lav latency og højt gennemløb, såsom AI-workloads, højfrekvenshandel og realtidsanalyse. Det forbedrer også ydeevnen for applikationer, der i høj grad er afhængige af databaser eller fil-I/O. Derudover hjælper RoCE v2 med forretningskontinuitet og katastrofeberedskab ved at muliggøre hurtig og effektiv datareplikering. Dets udbredte brug i AI-træningsklynger understreger dets betydning i moderne databehandling.
IV. InfiniBand: Det specialiserede højtydende fabric
InfiniBand er et førsteklasses højtydende interconnect, designet fra starten til at levere uovertruffen hastighed, minimal latency og høj pålidelighed til krævende computermiljøer.
A. Arkitektoniske principper
- Indbygget RDMA: InfiniBand blev bygget med RDMA integreret i hele sin protokolstak, fra det fysiske lag og op. Dette design fra bunden sikrer, at RDMA-operationer er yderst effektive, og skaber direkte og beskyttede datakanaler mellem knuder uden CPU-involvering.
- Switched Fabric-topologi: InfiniBand bruger en switched fabric-topologi til direkte punkt-til-punkt-forbindelser mellem enheder. Arkitekturen inkluderer Host Channel Adapters (HCA'er) på processorer og Target Channel Adapters (TCA'er) på perifere enheder, hvilket muliggør effektiv kommunikation.
- Kreditbaseret flowkontrol: En central funktion i InfiniBand er dens kreditbaserede flowkontrol. Denne algoritme på hardwareniveau garanterer tabsfrit kommunikation ved at sikre, at en afsender kun sender data, hvis modtageren har tilstrækkelig bufferplads (kreditter) til at acceptere dem. Denne indbyggede pålidelighed forhindrer pakketab og adskiller InfiniBand fra teknologier, der har brug for konfigurationer på højere lag for at være tabsfrie.
- Proprietære standarder: InfiniBand følger proprietære standarder defineret af InfiniBand Trade Association (IBTA), grundlagt i 1999. Økosystemet er stærkt domineret af NVIDIA (gennem opkøbet af Mellanox), en førende producent af InfiniBand-adaptere og -switche.
B. Ydelsesprofil
- Ultra-lav latency: InfiniBand tilbyder konsekvent den laveste latency. Adapter-latencies kan være så lave som 0,5 mikrosekunder, og switch port-til-port-latency er omkring 100 nanosekunder – betydeligt lavere end de 230 nanosekunder for sammenlignelige Ethernet-switche. På applikationslaget kan InfiniBand opnå latencies så lave som 2 mikrosekunder, sammenlignet med TCP/IP's 50 mikrosekunder.
- Høj gennemløbskapacitet: InfiniBand understøtter ekstremt høje datahastigheder. Moderne versioner som HDR og NDR tilbyder op til 200 Gbps og 400 Gbps pr. lane. Aggregerede links kan opnå endnu højere gennemløb, op til 800 Gbps (NDR) og endda 1,6 Tbps (XDR).
- CPU-effektivitet: En nøglestyrke ved InfiniBand er dens evne til at levere ultra-lav latency og ekstremt høj båndbredde med næsten ingen CPU-belastning. Denne aflastning af netværksbehandling er en afgørende fordel for beregningstunge workloads.
- Ydeevne via design vs. ydeevne via konfiguration: InfiniBand og RoCE har en grundlæggende forskel i deres tilgang. InfiniBand blev designet fra bunden til RDMA, hvor dets fysiske og transportlag var udviklet til pålidelighed på hardwareniveau, herunder en indbygget kreditbaseret algoritme for tabsfrit kommunikation. I modsætning hertil kører RoCE på standard Ethernet og er afhængig af konfiguration af funktioner som Priority Flow Control (PFC) og Explicit Congestion Notification (ECN) for at skabe et tabsfrit netværk. Dette betyder, at InfiniBand leverer garanteret høj ydeevne direkte ud af kassen, mens RoCE's ydeevne afhænger af kvaliteten af den underliggende Ethernet-konfiguration.
C. Infrastruktur og administration
- Dedikeret hardware: InfiniBand kræver specialiseret hardware, herunder dedikerede Host Channel Adapters (HCA'er), switche, routere og proprietære kabler. Dette resulterer typisk i en højere initial investering sammenlignet med Ethernet-baserede løsninger.
- Centraliseret administration: InfiniBand-netværk administreres af en central Subnet Manager (SM), som beregner og distribuerer forwarding-tabeller og administrerer konfigurationer som partitioner og Quality of Service (QoS). Denne centraliserede tilgang kan forenkle administrationen i store klynger efter den indledende opsætning.
- Specialiseret ekspertise: Implementering og vedligeholdelse af InfiniBand-netværk kræver normalt specialiseret viden, hvilket kan øge driftsomkostningerne og skabe en stejlere indlæringskurve for IT-personale.
- Økosystem: InfiniBand-økosystemet er modent, men domineret af NVIDIA/Mellanox.
D. Vigtige applikationer
InfiniBand er industristandarden for High-Performance Computing (HPC)-miljøer og er det hurtigst voksende interconnect til disse applikationer. Det er den primære teknologi, der anbefales af IBTA. Dets ultra-lave latency og høje båndbredde er afgørende for krævende workloads som storskala AI/ML-modeltræning, Big Data-analyse og massive databaseoperationer. Det er også afgørende for store simuleringer (f.eks. vejrudsigter) og højfrekvente finansielle tjenester, hvor hastighed og dataintegritet er kritiske. I juni 2022 brugte 62 % af Top100-supercomputere i verden InfiniBand.
V. iWARP: RDMA over standard TCP/IP
iWARP (Internet Wide Area RDMA Protocol) er en anden metode til at implementere RDMA, bemærkelsesværdig for sin brug af den standardiserede TCP/IP-protokolpakke.
A. Arkitektoniske principper
- RDMA over TCP/IP: iWARP er en protokol, der implementerer RDMA over standard IP-netværk. I modsætning til RoCE, som bruger UDP, er iWARP bygget oven på pålidelige transportprotokoller som TCP og SCTP.
- Nøglekomponenter: iWARP's funktion afhænger af flere komponenter. Direct Data Placement Protocol (DDP) muliggør zero-copy-transmission ved at placere data direkte i en applikations hukommelse. Remote Direct Memory Access Protocol (RDMAP) leverer tjenesterne til RDMA-læse- og skriveoperationer. Et specifikt tilpasningslag, Marker PDU Aligned (MPA) framing, er nødvendigt for at muliggøre DDP over TCP.
- Pålidelighed: En unik funktion ved iWARP er, at dens pålidelighed leveres af den underliggende TCP-protokol. Dette er anderledes end RoCE v2, som bruger UDP og kræver eksterne mekanismer som Data Center Bridging (DCB) for pålidelighed. Som et resultat understøtter iWARP kun pålidelig, forbundet kommunikation.
B. Ydelsesprofil
- Sammenlignende latency og gennemløb: Selvom iWARP har lavere latency end traditionel TCP/IP, er dens ydeevne generelt dårligere end RoCE. I 2011 var den laveste iWARP HCA-latency 3 mikrosekunder, mens RoCE HCA'er nåede 1,3 mikrosekunder. Benchmarks viser konsekvent, at RoCE leverer beskeder meget hurtigere end iWARP, med et gennemløb, der er mere end dobbelt så højt ved 40GbE og fem gange højere ved 10GbE.
- CPU-aflastning: Ligesom andre RDMA-protokoller minimerer iWARP CPU-belastningen ved at muliggøre direkte hukommelsesoverførsler. Det kan bruge TCP Offload Engines (TOE) med RDMA-hardware til at opnå zero-copy-resultater og yderligere reducere CPU-involvering.
C. Infrastruktur og administration
- Kompatibilitet med standard Ethernet: En stor fordel ved iWARP er dets evne til at køre over standard Ethernet-infrastruktur med minimale ændringer i det eksisterende netværk. Dette giver organisationer mulighed for at udnytte deres nuværende investeringer.
- Hardwarekrav: På trods af sin kompatibilitet med standard Ethernet-switche kræver iWARP stadig iWARP-kompatible netværkskort i endepunkterne.
- Integrationsaspekter: iWARP er integreret i store operativsystemer som Microsoft Windows Server og moderne Linux-kerner. Dette understøtter applikationer som SMB Direct, iSCSI Extensions for RDMA (iSER) og Network File System over RDMA (NFS over RDMA).
- Administrationsudfordringer: Det kan være svært at administrere iWARP-trafik. Det deler TCP's portrum, hvilket komplicerer flowstyring og gør det svært at identificere RDMA-trafik. Generelt anses iWARP for at være sværere at administrere end RoCE.
D. Markedsrelevans
- Begrænset udbredelse: iWARP er en "usædvanlig" eller "mindre almindeligt anvendt" RDMA-implementering sammenlignet med InfiniBand og RoCE v2. Dets løsninger har haft "begrænset succes" på grund af udfordringer med implementering og udrulning.
- Paradokset ved TCP-afhængighed: iWARP's designvalg om at lægge RDMA oven på TCP giver indbygget pålidelighed og kompatibilitet, men forhindrer det paradoksalt nok i fuldt ud at opnå kernefordelene ved RDMA. Den iboende overhead fra TCP-protokollen, selv med hardwareaflastning, ser ud til at forhindre iWARP i at nå den ultra-lave latency og det høje gennemløb, som InfiniBand eller RoCE har. Denne ydelsesafvejning har ført til dens begrænsede markedsudbredelse.
VI. Sammenlignende analyse: RoCE v2 vs. InfiniBand vs. iWARP vs. standard Ethernet
En detaljeret sammenligning af ydeevne, infrastruktur og driftsmæssige målinger er nøglen til at vælge det rette højtydende interconnect.
A. Ydelsesbenchmarks
Ydeevnen for disse interconnects varierer meget, især med hensyn til latency, båndbredde og CPU-udnyttelse.
- Latency:
- InfiniBand: Tilbyder den laveste latency. Switch port-til-port-latency er omkring 100 nanosekunder, mens adapter-latency er så lav som 0,5 til 1,3 mikrosekunder. Latency på applikationslaget kan være helt ned til 2 mikrosekunder.
- RoCE v2: Giver ultra-lav latency. Ethernet-switch-latency er omkring 230 nanosekunder, mens HCA-latency kan være så lav som 1,3 mikrosekunder. Latency på applikationslaget er typisk omkring 5 mikrosekunder.
- iWARP: Har højere latency end RoCE, med HCA-latency rapporteret til omkring 3 mikrosekunder (2011-data). Den klarer sig konsekvent dårligere end RoCE.
- Standard TCP/IP: Har den højeste latency, med envejs-latency fra 10 til 55 millisekunder. Latency på applikationslaget er typisk omkring 50 mikrosekunder.
- Båndbredde:
- InfiniBand: Understøtter meget høj båndbredde. Moderne versioner som NDR tilbyder op til 400 Gbps pr. port, og XDR når op til 800 Gbps. Fremtidig GDR forventes at nå 1,6 Tbps.
- RoCE v2: I stand til høj båndbredde og understøtter op til 400 Gbps pr. port.
- iWARP: Har generelt lavere gennemløb end RoCE.
- Standard TCP/IP: Gennemløbet er ofte begrænset af protokol-overhead og genfremsendelser, hvilket gør det svært at udnytte links med høj båndbredde effektivt.
- CPU-aflastning:
- InfiniBand, RoCE v2, iWARP: Alle tre RDMA-teknologier aflaster betydeligt CPU-arbejde ved at omgå operativsystemet, hvilket frigør CPU-ressourcer til andre opgaver.
- Standard TCP/IP: Medfører høj CPU-belastning, fordi kernen er stærkt involveret i databehandling.
- Tabsfrit mekanisme:
- InfiniBand: Har indbygget, kreditbaseret flowkontrol på hardwareniveau, som garanterer tabsfrit kommunikation.
- RoCE v2: Er afhængig af en tabsfrit Ethernet-konfiguration, der bruger Data Center Bridging (DCB)-funktioner som PFC og ECN. Den har også en ende-til-ende pålidelig leveringsmekanisme med hardware-genfremsendelser.
- iWARP: Bruger TCP's indbyggede pålidelige transport til dataintegritet.
- Standard TCP/IP: Bruger en best-effort-leveringsmodel, der er afhængig af genfremsendelser på højere lag for at sikre pålidelighed, hvilket tilføjer latency.
Følgende tabel opsummerer ydelsesegenskaberne:
| Funktion | InfiniBand | RoCE v2 | iWARP | Standard Ethernet/TCP/IP |
|---|---|---|---|---|
| Kerneteknologi | Indbygget RDMA | RDMA over Ethernet (UDP/IP) | RDMA over Ethernet (TCP/IP) | Traditionel lagdelt protokol |
| Typisk applikations-latency (µs) | 2 | 5 | >3 (2011 HCA) | 50 |
| Switch port-til-port-latency (ns) | 100 | 230 | Ikke relevant (afhænger af Ethernet) | Typisk højere, variabel |
| Maks. båndbredde (Gbps pr. port/link) | 400 (NDR), 800 (XDR), 1,6T (GDR) | 400 | Generelt lavere end RoCE | 400+ (men begrænset af protokol-overhead) |
| CPU-overhead | Næsten nul | Meget lavt | Lavt | Højt |
| Tabsfrit mekanisme | Indbygget kreditbaseret flowkontrol | Kræver tabsfrit Ethernet (PFC, ECN) | TCP's pålidelige transport | Best-Effort, afhænger af genfremsendelser |
| Routabilitet (L2/L3) | L3 (via Subnet Manager) | L3 (Routable RoCE) | L3 | L3 (Standard IP Routing) |
B. Infrastruktur og økosystem
- Hardwareafhængigheder:
- InfiniBand: Kræver et komplet sæt specialiseret hardware, herunder InfiniBand HCA'er, switche og proprietære kabler.
- RoCE v2: Kræver RoCE-kompatible HCA'er, men fungerer over standard Ethernet-switche og -kabler, hvilket tillader integration med eksisterende netværk.
- iWARP: Kræver iWARP-kompatible netværkskort, men kan bruge standard Ethernet-switche.
- Standard Ethernet: Bruger bredt tilgængelige, standard Ethernet NIC'er og switche.
- Leverandørbinding:
- InfiniBand: Økosystemet er begrænset og domineret af Mellanox (NVIDIA), hvilket kan give anledning til bekymringer om leverandørbinding.
- RoCE v2: Nyder godt af et stort og konkurrencedygtigt Ethernet-økosystem med flere leverandører. Nogle tilbyder "Universal RDMA" NIC'er, der understøtter både RoCE og iWARP, hvilket reducerer binding.
- iWARP: Nyder også godt af det brede Ethernet-økosystem, med støtte fra leverandører som Intel og Chelsio.
- Interoperabilitet:
- InfiniBand: Som en proprietær standard skal alle komponenter overholde IBTA-specifikationerne for at sikre, at de fungerer sammen.
- RoCE v2: Dets fundament på standard Ethernet giver bredere interoperabilitet og lettere integration med eksisterende netværk.
- iWARP: Baseret på standard IETF RFC'er for TCP/IP, hvilket sikrer høj kompatibilitet inden for standard IP-netværk.
C. Omkostningseffektivitet
- Initial investering:
- InfiniBand: Kræver typisk en højere initial investering på grund af specialiseret hardware og licenser. For store AI-klynger kan InfiniBand-switche være betydeligt dyrere end RoCE-switche.
- RoCE v2: Ofte en mere omkostningseffektiv mulighed, fordi den kan integreres med eksisterende Ethernet, hvilket reducerer omkostningerne til ny hardware. Besparelser på switche til store AI-klynger kan være betydelige (49 % til 70 % sammenlignet med InfiniBand).
- iWARP: Bruger standard Ethernet-switche, men kræver specialiserede adaptere, hvilket stadig kan være en betydelig omkostning.
- Standard Ethernet: Generelt den billigste løsning på grund af dens standardhardware.
- Samlede ejeromkostninger (TCO):
- InfiniBand: Har tendens til at have en højere TCO på grund af specialiseret hardware, vedligeholdelse og behovet for personaleuddannelse i en proprietær teknologi.
- RoCE v2: Kan have en lavere TCO, men dette er betinget. Kompleksiteten ved at konfigurere og vedligeholde et tabsfrit Ethernet-fabric kan øge driftsomkostningerne betydeligt. Selvom de indledende hardwareomkostninger kan være lavere, kan den specialiserede viden og indsats, der kræves til design, fejlfinding og vedligeholdelse, opveje disse besparelser. Derfor afhænger "omkostningseffektivitet" både af hardwareprisen og organisationens ekspertise og administrationsbyrde.
- iWARP: Integrations- og administrationsudfordringer kan påvirke dets samlede TCO.
Følgende tabel giver en sammenlignende oversigt over infrastruktur- og omkostningshensyn:
| Funktion | InfiniBand | RoCE v2 | iWARP | Standard Ethernet/TCP/IP |
|---|---|---|---|---|
| Nødvendig netværkshardware | Dedikerede IB NIC'er, IB Switche, IB Kabler | RoCE-kompatible NIC'er, Standard Ethernet Switche/Kabler | iWARP-kompatible NIC'er, Standard Ethernet Switche/Kabler | Standard Ethernet NIC'er, Ethernet Switche/Kabler |
| Netværkskompatibilitet | Proprietær (IBTA Standard) | Standard Ethernet (IEEE) | Standard Ethernet (IETF RFC'er) | Standard Ethernet (IEEE) |
| Administrationskompleksitet | Svær (Specialiseret SM) | Svær (Tabsfrit Ethernet-konfig.) | Sværere end RoCE | Nem |
| Initial hardwareomkostning (relativ) | Høj | Moderat (Udnytter eksisterende) | Moderat (Specialiserede NIC'er) | Lav |
| Samlede ejeromkostninger (relativ) | Højere | Lavere (Betinget af administration) | Variabel (Integrationsudfordringer) | Lavest |
| Leverandørøkosystem | Begrænset (NVIDIA/Mellanox dominerende) | Bredt (Flere Ethernet-leverandører) | Bredt (Flere Ethernet-leverandører) | Meget bredt |
D. Skalerbarhed og fleksibilitet
- Routing-kapacitet:
- InfiniBand: Bruger et switched fabric med routing, der administreres centralt af en Subnet Manager (SM). Det er yderst skalerbart og understøtter klynger med over 100.000 knuder.
- RoCE v2: Dets UDP/IP-indkapsling gør det muligt at route det over Lag 3 IP-netværk, hvilket gør det skalerbart på tværs af store netværk og cloud-miljøer. Det understøtter også ECMP for effektiv load balancing.
- iWARP: Er routable over IP-netværk.
- Standard Ethernet: Yderst skalerbart og fleksibelt, men kan kræve avancerede konfigurationer som spine-leaf-arkitekturer for at opnå HPC-niveau effektivitet.
- Netværkstopologier:
- InfiniBand: Optimeret til HPC/AI-klynger og understøtter højtydende topologier som Fat Tree, Dragonfly+ og flerdimensionel Torus.
- RoCE v2: Dets IP-baserede routing gør det tilpasningsdygtigt til næsten enhver netværkstopologi.
- Standard Ethernet: Understøtter en bred vifte af topologier, herunder stjerne og mesh.
E. Pålidelighed og overbelastningskontrol
- Pålidelighed:
- InfiniBand: Giver indbygget pålidelighed på hardwareniveau med sin kreditbaserede flowkontrol, hvilket garanterer tabsfrit kommunikation.
- RoCE v2: Er afhængig af en tabsfrit Ethernet-konfiguration ved hjælp af PFC og ETS. Det inkluderer også en ende-til-ende pålidelig leveringsmekanisme med hardwarebaseret pakkegenfremsendelse.
- iWARP: Nyder godt af TCP's iboende pålidelighed, som giver fejlkorrektion og genfremsendelser.
- Standard TCP/IP: Fokuserer på pålidelighed gennem genfremsendelser, hvilket kan tilføje betydelig latency og reducere gennemløbet.
- Overbelastningskontrol:
- InfiniBand: Definerer sine egne mekanismer til overbelastningskontrol baseret på FECN/BECN-mærkning.
- RoCE v2: Implementerer en protokol til overbelastningskontrol ved hjælp af IP ECN-bits og Congestion Notification Packets (CNP'er). Industrielle praksisser som DCQCN anvendes også.
- iWARP: Er afhængig af TCP's etablerede algoritmer til overbelastningskontrol.
F. Anvendelsesegnethed
- InfiniBand: Det ideelle valg til miljøer, der kræver det højeste datagennemløb og den laveste latency. Dette omfatter videnskabelig forskning, finansiel modellering, storskala HPC-klynger og de mest krævende AI/ML-træningsworkloads.
- RoCE v2: Foretrækkes af virksomheder, der ønsker at bruge deres eksisterende Ethernet-infrastruktur, men stadig har brug for høj ydeevne. Det er velegnet til lagernetværk, realtidsanalyse og cloud-tjenester, og tilbyder en balance mellem ydeevne og omkostninger.
- iWARP: Kan overvejes til nicheapplikationer, hvor eksisterende TCP/IP-infrastruktur er et strengt krav, og ultra-lav latency ikke er topprioritet. Det er velegnet til applikationer som NVMeoF, iSER, SMB Direct og NFS over RDMA, eller som en billig mulighed for testmiljøer.
- Standard Ethernet/TCP/IP: Forbliver det bedste valg til generelle netværksformål, såsom virksomheds-LAN'er og cloud-infrastruktur, hvor ekstrem HPC/AI-ydeevne ikke er hovedmålet.
- Trilemmaet mellem ydeevne, omkostninger og kompleksitet: Denne analyse afslører en grundlæggende afvejning, når man vælger et interconnect: et trilemma mellem ydeevne, omkostninger og kompleksitet. InfiniBand tilbyder topydeevne og indbygget pålidelighed, men til en højere pris. RoCE v2 giver en ydeevne tæt på InfiniBand på Ethernet, hvilket potentielt kan reducere hardwareomkostningerne, men tilføjer betydelig konfigurationskompleksitet. iWARP tilbyder RDMA over TCP, men med lavere ydeevne. Standard Ethernet er omkostningseffektivt, men mangler ydeevnen til krævende workloads. Der findes ingen enkelt "bedste" løsning; det rigtige valg kræver en afvejning af disse tre faktorer baseret på specifikke behov og kapabiliteter.
Følgende tabel skitserer anvendelsesegnetheden for hver teknologi:
| Teknologi | Primære anvendelsesområder | Bedst egnet til | Mindre egnet til |
|---|---|---|---|
| InfiniBand | HPC, AI/ML-træning, Big Data-analyse, finansielle tjenester (arbitrage) | Miljøer, der kræver den absolut laveste latency, højeste båndbredde og indbyggede tabsfri garantier | Omkostningsfølsomme, generelle virksomhedsnetværk, miljøer uden specialiseret IT-ekspertise |
| RoCE v2 | Datacentre, cloud-tjenester, lagernetværk, realtidsanalyse, AI/ML-inferens | Organisationer, der udnytter eksisterende Ethernet-infrastruktur til høj ydeevne; balance mellem omkostninger og ydeevne | Miljøer, hvor indbyggede tabsfri garantier er ikke-negotiable uden omfattende konfigurationsekspertise |
| iWARP | NVMeoF, iSER, SMB Direct, NFS over RDMA, test/udviklingsmiljøer | Specifikke applikationer, der kræver RDMA over eksisterende TCP/IP, hvor absolut topydeevne ikke er afgørende | Storskala HPC/AI-klynger, latency-følsomme realtidsapplikationer |
| Standard Ethernet/TCP/IP | Generelle virksomhedsnetværk, LAN'er, internetforbindelse, cloud-infrastruktur | Allestedsnærværende, omkostningseffektivt og fleksibelt generelt netværk | High-performance computing, AI/ML-træning og andre latency-følsomme, CPU-intensive workloads |
VII. Nye højtydende interconnects og fremtidige tendenser
Landskabet for højtydende netværk er i konstant forandring, drevet af dataintensive workloads og behovet for større effektivitet. Ud over etablerede RDMA-teknologier former nye interconnects og tendenser fremtiden for datacentre.
A. Compute Express Link (CXL)
CXL er et moderne interconnect bygget på det fysiske PCIe-lag, designet til generelle computersystemer. Dets primære mål er at muliggøre hurtig, problemfri kommunikation mellem CPU'er og acceleratorer som GPU'er og FPGA'er.
Nøglefunktioner i CXL inkluderer højhastigheds-dataoverførsel, bred kompatibilitet og effektiv hukommelsesdeling gennem Cache Coherency. Det understøtter tre enhedstyper (til acceleratorer, cache-kohærente enheder og hukommelsesudvidere) og fleksible topologier. CXL/PCIe Gen5 tilbyder et maksimalt gennemløb på 512 Gbps med en latency på omkring 500 nanosekunder. Mens InfiniBand har lavere latency (omkring 100 nanosekunder), er CXL overlegen til hukommelsesadgang med lav latency, hvor cache-kohærens er afgørende.
En vigtig udvikling var fusionen af Gen-Z og CXL-konsortierne i 2022, hvilket positionerer CXL som den eneste industristandard for denne klasse af hukommelsesfokuserede interconnects.
CXL repræsenterer et skift fra traditionel knude-til-knude-netværk (som RoCE og InfiniBand) mod hukommelseskohærens og ressource-disaggregering. Det betyder, at for visse workloads kan CXL blive det primære interconnect, hvilket supplerer eller reducerer behovet for traditionelle netværksfabrics.
B. NVLink
NVLink er NVIDIA's proprietære interconnect med høj båndbredde og lav latency, udviklet til direkte GPU-til-GPU og GPU-til-CPU-kommunikation inden for dets accelererede computerplatforme.
NVLink er en central del af NVIDIA's løsninger til AI og HPC, såsom dets GB200- og GB300-arkitekturer. Det er afgørende for at skalere AI-modeltræning ved at levere ekstremt hurtige dataoverførsler mellem GPU'er.
NVLink viser en tendens mod vertikal integration og specialiseret ydeevne. Dets proprietære natur står i kontrast til åbne standarder som RoCE eller InfiniBand. Dette design maksimerer ydeevnen inden for en enkelt leverandørs hardwarestak. Mens InfiniBand og RoCE håndterer generel netværkskommunikation mellem knuder, optimerer NVLink kommunikationen inden for og mellem GPU-systemer, hvilket skaber en lagdelt interconnect-arkitektur, hvor forskellige teknologier tjener forskellige behov.
C. Fremtidige Ethernet-hastigheder
Ethernet har udviklet sig fra 10 Mbps til 400 Gbps, og udviklingen fortsætter med 800GbE- og 1.6TbE-standarder i horisonten. Disse hurtigere hastigheder vil være afgørende for næste generations applikationer som kvantecomputere, avanceret AI og immersive teknologier.
Den kontinuerlige stigning i Ethernet-hastigheder gavner RoCE direkte. Fordi RoCE er bygget på Ethernet, drager det automatisk fordel af disse fremskridt, hvilket hjælper det med at forblive konkurrencedygtigt med InfiniBand. Væksten i cloud-tjenester driver allerede udbredelsen af 200GbE og 400GbE, med 800GbE og 1.6TbE som de næste.
Den vedvarende relevans af Ethernet og RoCE er tæt forbundet. Efterhånden som Ethernet-hastighederne stiger, bliver RoCE en endnu stærkere konkurrent for højtydende datacentre, især for organisationer, der ønsker at udnytte deres eksisterende Ethernet-investeringer og undgå proprietære økosystemer.
D. Disaggregeret computing og fotonik
- Disaggregeret computing: Denne nye tilgang sigter mod at forbedre effektiviteten i datacentre ved at afkoble ressourcer som computerkraft, lager og hukommelse fra traditionelle servere. Disse ressourcer samles derefter igen i fleksible puljer forbundet af avanceret netværk. Et centralt resultat er, at kommunikation, der engang fandt sted inde i en server, nu krydser netværket, hvilket dramatisk øger belastningen og gør ultra-lav latency kritisk. Denne tendens forstærker behovet for højtydende interconnects som RoCE og InfiniBand og driver udviklingen af nye som CXL.
- Fotonik i datacenternetværk: Siliciumfotonik integrerer optiske komponenter på siliciumchips, hvilket muliggør højhastigheds-, lavenergi-optiske interconnects. Denne teknologi tilbyder meget hurtigere dataoverførselshastigheder (over 100 Gbps), lavere latency og bedre energieffektivitet end traditionelt kobber. Det bliver afgørende for at imødekomme de voksende trafikbehov i datacentre og muliggøre den næste generation af højhastigheds-Ethernet.
Forholdet mellem disse tendenser er symbiotisk. Disaggregerede arkitekturer kræver avanceret netværk, som interconnects som RoCE, InfiniBand og CXL leverer. Til gengæld vil opnåelsen af de nødvendige hastigheder for disse interconnects, især for fremtidige 800GbE- og 1.6TbE-standarder, være afhængig af teknologier som siliciumfotonik.
VIII. Anbefalinger og konklusion
Valget af et højtydende interconnect er en kritisk strategisk beslutning, der skal være i overensstemmelse med en organisations specifikke behov, budget, infrastruktur og langsigtede vision.
- For maksimal rå ydeevne og missionskritisk HPC/AI: InfiniBand er den klare guldstandard. Dets indbyggede RDMA, kreditbaserede flowkontrol og specialbyggede design leverer den laveste latency og højeste gennemløb med garanteret tabsfrit ydeevne. Organisationer med budgettet og ekspertisen bør vælge InfiniBand til storskala klynger, hvor hvert mikrosekund tæller.
- For høj ydeevne med omkostningseffektivitet og Ethernet-integration: RoCE v2 er et stærkt og stadig mere populært alternativ. Det tilbyder store ydeevneforbedringer i forhold til TCP/IP og kan nærme sig InfiniBands ydeevne ved at bruge eksisterende Ethernet-infrastruktur. Det er ideelt for organisationer, der opgraderer deres datacentre uden en komplet overhaling. Dette valg kræver dog en forpligtelse til omhyggeligt at konfigurere og administrere et tabsfrit Ethernet-fabric.
- For nicheapplikationer eller ældre RDMA over TCP-miljøer: iWARP kan være egnet i specifikke tilfælde, især hvor brug af eksisterende TCP/IP-infrastruktur er et must, og topydeevne ikke er det primære mål. Dets lavere ydeevne og højere administrationskompleksitet begrænser dog dets anvendelse i moderne højtydende implementeringer.
- Til generelle netværksformål: Standard Ethernet/TCP/IP forbliver det mest almindelige og omkostningseffektive valg til miljøer uden ekstreme ydeevnekrav. Dets brugervenlighed og standardhardware gør det perfekt til generelle virksomhedsnetværk, LAN'er og standard cloud-infrastruktur.
- Overvejelse af nye teknologier for fremtidssikring: Organisationer bør holde øje med udviklingen af CXL til hukommelses-centrerede og disaggregerede arkitekturer, da det supplerer traditionelle netværksfabrics ved at optimere ressourcepooling. Ligeledes er NVLink afgørende for at optimere kommunikationen inden for NVIDIA's GPU-tunge systemer. Disse teknologier viser en diversificering af interconnects til forskellige lag af beregningshierarkiet. Derudover vil udviklingen af 800GbE og 1.6TbE Ethernet, sammen med fremskridt inden for fotonik, fortsat gøre RoCE til en endnu mere kraftfuld mulighed.
Konklusionen er, at landskabet for højtydende netværk er komplekst, drevet af kravene fra AI, HPC og skiftet mod disaggregeret computing. Mens InfiniBand fører an inden for absolut ydeevne til specialiserede miljøer, giver RoCE v2 et kraftfuldt og fleksibelt alternativ, der bygger bro mellem RDMA's fordele og Ethernets udbredelse. Fremkomsten af CXL og NVLink indikerer en strategisk diversificering af interconnects, der optimerer forskellige kommunikationslag. Den optimale løsning vil altid være en strategisk balance mellem ydeevnekrav, omkostninger, eksisterende infrastruktur og en fremadskuende vision.




