En omfattande analys av högpresterande sammankopplingstekniker: RoCE v2, InfiniBand, iWARP och nya alternativ för moderna datacenter

Kategoriserat som Hardware
Save and Share:

I. Sammanfattning

Moderna datacenter måste stödja krävande arbetsbelastningar som högpresterande databehandling (HPC), artificiell intelligens/maskininlärning (AI/ML) och stordataanalys. Dessa applikationer kräver ultralåg latens, hög bandbredd och minimal processoranvändning. Traditionella nätverksprotokoll som TCP/IP kan inte möta dessa behov på grund av sin höga overhead och latens.

Fjärråtkomst till direktminne (Remote Direct Memory Access, RDMA) är den nyckelteknik som möjliggör högpresterande sammankopplingar. RDMA tillåter nätverksanslutna datorer att överföra data direkt mellan sina minnen utan att involvera operativsystemen eller processorerna (minne-till-minne). Denna process minskar latensen och processorbelastningen dramatiskt.

  • InfiniBand är en specialbyggd, proprietär nätverksstruktur designad för högsta möjliga prestanda och inbyggd förlustfri drift.
  • RoCE v2 (RDMA over Converged Ethernet) tillämpar RDMA-fördelarna över standard-Ethernet, vilket erbjuder ett dirigerbart och mer kostnadseffektivt alternativ, men kräver specifika konfigurationer för att vara förlustfritt.
  • iWARP är en annan RDMA-över-Ethernet-lösning baserad på TCP, men den är generellt mindre vanlig och erbjuder lägre prestanda än RoCE v2.

Att välja rätt sammankopplingsteknik är ett strategiskt beslut som beror på prestandabehov, budget, befintlig infrastruktur och skalbarhetsmål. Denna rapport analyserar dessa tekniker, jämför dem med standard-Ethernet/TCP/IP och utforskar nya alternativ som CXL och NVLink för att vägleda detta kritiska beslut.

II. Introduktion till högpresterande nätverk och RDMA

Dagens digitala värld kännetecknas av en exponentiell tillväxt av dataintensiva applikationer som högpresterande databehandling (HPC), artificiell intelligens/maskininlärning (AI/ML) och stordataanalys. Dessa arbetsbelastningar måste flytta enorma datamängder snabbt och effektivt mellan beräkningsnoder och lagring. Till exempel är AI-applikationer mycket känsliga för dataintegritet och kräver förlustfria nätverk, där ett enda förlorat meddelande kan förstöra en hel träningskörning. Hög bandbreddstrafik är också avgörande för att dessa applikationer ska kunna bearbeta data effektivt.

Begränsningar med traditionellt TCP/IP Ethernet för högpresterande applikationer

Även om traditionellt TCP/IP Ethernet är tillförlitligt för allmänna nätverksbehov, har det stora begränsningar för högpresterande applikationer:

  • Hög latens och processorbelastning: TCP/IP:s design skickar data genom flera mjukvarulager i operativsystemets kärna, vilket kräver betydande processorinblandning. Denna process adderar avsevärd latens (vanligtvis tiotals mikrosekunder) och belastar processorn tungt. För latenskänsliga applikationer blir detta en stor flaskhals, eftersom processorn ägnar sin tid åt att hantera nätverkstrafik istället för att köra applikationen. Denna "processorskatt" från kontextbyten och datakopiering är en primär anledning till att använda RDMA-tekniker, som avlastar nätverksbearbetningen och frigör processorn för applikationsuppgifter.
  • Begränsningar i genomströmning: Flera faktorer begränsar TCP:s effektiva genomströmning, inklusive sändningsfönstrets storlek, segmentstorlek och paketförlust. Standardstorleken på TCP-fönstret (ofta begränsad till 65 535 byte) kan förhindra fullt utnyttjande av länkar med hög bandbredd, särskilt på nätverk med högre latens. Dessutom introducerar TCP:s centrala tillförlitlighetsmekanism – omsändning av paket – förseningar och använder extra bandbredd, vilket skadar prestandan i överbelastade eller förlustdrabbade nätverk.
  • Skalbarhetsutmaningar: Även om TCP/IP skalar väl för stora nätverk, prioriterar dess design allmän tillförlitlighet framför rå prestanda. Detta gör det mindre effektivt för scenarier som kräver extrem genomströmning och minimal latens, såsom storskaliga HPC-kluster eller AI-inferens i realtid.

Grunderna i fjärråtkomst till direktminne (RDMA) och dess centrala fördelar

Fjärråtkomst till direktminne (RDMA) utvecklades för att övervinna TCP/IP:s begränsningar i högpresterande miljöer. Dess huvudsakliga fördelar kommer från att kringgå processorn och operativsystemet under dataöverföringar:

  • Direkt minnesåtkomst (Zero-Copy): RDMA överför data direkt från en dators minne till en annans utan att involvera något av systemens processor eller operativsystem. Detta "zero-copy"-tillvägagångssätt eliminerar mellanliggande databuffertar och kontextbyten, vilka är stora källor till overhead i traditionella nätverk.
  • Minskad latens och processorbelastning: Genom att kringgå processorn och operativsystemet minskar RDMA drastiskt kommunikationslatensen och frigör processcykler. Detta leder direkt till snabbare beräkningar och bättre databearbetning i realtid. Till exempel kan applikationslatensen sjunka från cirka 50 mikrosekunder med TCP/IP till så lågt som 2–5 mikrosekunder med RDMA.
  • Högre utnyttjande av bandbredd: Den effektiva datavägen och den minskade overheaden i RDMA gör att applikationer bättre kan utnyttja tillgänglig nätverksbandbredd, vilket resulterar i högre effektiv genomströmning.
  • Viktiga implementationer: De huvudsakliga RDMA-teknikerna som används idag är InfiniBand, RoCE (version 1 och 2) och iWARP.

III. RoCE v2: RDMA over Converged Ethernet

RoCE v2 är ett stort framsteg inom högpresterande nätverk, som utökar fördelarna med RDMA till det allmänt använda Ethernet-ekosystemet.

A. Arkitektoniska principer

  • Evolution från RoCE v1: RoCE v1 var ett Layer 2-protokoll (Ethertype 0x8915), vilket begränsade det till en enda Ethernet-sändningsdomän och begränsade dess skalbarhet. RoCE v2 löser detta genom att verka på internetlagret. Det kapslar in RDMA-trafik i UDP/IP-paket (med UDP-destinationsport 4791), vilket gör den dirigerbar över Layer 3 IP-nätverk. Denna dirigerbarhet är en kritisk förbättring som gör att RoCE v2 kan användas i storskaliga datacenter och molnmiljöer.
  • Integration av RDMA över Ethernet: RoCE erbjuder en metod för att utföra RDMA över ett standard-Ethernet-nätverk. Det ersätter i praktiken InfiniBand-nätverkslagret med IP- och UDP-headers, samtidigt som det behåller det centrala InfiniBand-transportlagret och RDMA-protokollet. Denna design gör att RoCE kan dra nytta av befintlig Ethernet-infrastruktur.
  • Paketformat: Ett RoCE v2-paket inkluderar en IP-header och en UDP-header, som kapslar in RDMA Transport Protocol. Även om UDP inte garanterar paketordning, kräver RoCE v2-standarden att paket med samma källport och destinationsadress inte får omordnas.
  • Kompromissen "det bästa av två världar": RoCE v2:s design är en strategisk kompromiss som syftar till att leverera den höga prestandan hos RDMA på den flexibla, kostnadseffektiva och allestädes närvarande Ethernet-plattformen. Även om detta tillvägagångssätt erbjuder bred kompatibilitet, skapar det en central utmaning: att säkerställa den förlustfria prestanda som RDMA behöver över ett Ethernet-nätverk, som i sig är förlustdrabbat.

B. Prestandaprofil

  • Latens: RoCE-värdkanaladaptrar (HCA) kan uppnå mycket låga latenser, så låga som 1,3 mikrosekunder. På applikationsnivå minskar RoCE latensen till cirka 5 mikrosekunder, en enorm förbättring jämfört med de 50 mikrosekunder som är typiska med TCP/IP. Även om InfiniBand erbjuder något lägre inbyggd latens, är RoCE:s prestanda utmärkt för realtidsapplikationer.
  • Bandbredd: RoCE v2 stöder hög bandbredd, med hastigheter upp till 400 Gbit/s per port.
  • Processoravlastning: Precis som andra RDMA-protokoll kringgår RoCE processorn för dataöverföringar. Denna avlastning frigör värdefulla processorresurser för beräkningsintensiva uppgifter istället för nätverksbearbetning.
  • Förlustfri prestanda: För att matcha prestandan hos InfiniBand är RoCE beroende av ett förlustfritt Ethernet-nätverk. Detta uppnås vanligtvis genom att implementera funktioner för Data Center Bridging (DCB), särskilt Priority Flow Control (PFC) och Explicit Congestion Notification (ECN).

C. Infrastruktur och hantering

  • Krav på hårdvara/mjukvara: RoCE fungerar med standard-Ethernet-hårdvara som switchar och kablar, vilket gör att organisationer kan använda sin befintliga infrastruktur. Det kräver dock RoCE-kapabla värdkanaladaptrar (HCA) vid ändpunkterna. Mjukvarustödet är moget, med implementationer i Mellanox OFED 2.3+ och integrerat i Linux Kernel v4.5+.
  • Konfiguration av förlustfria nätverk: Även om RoCE använder standard-Ethernet kan det vara mer komplext att skapa ett förlustfritt DCB-nätverk än att sätta upp ett InfiniBand-nätverk. Varje komponent, från ändpunkter till switchar, måste konfigureras noggrant. Detta inkluderar att ställa in Priority Flow Control (PFC), Enhanced Transmission Selection (ETS) och mekanismer för överbelastningsavisering. För att fungera över Layer 3-nätverk måste dessa förlustfria egenskaper bibehållas över routrar, ofta genom att mappa Layer 2-prioritetsinställningar till Layer 3 DSCP QoS-inställningar.
  • Hanteringsaspekter: RoCE kan hanteras med vanliga Ethernet-verktyg. Att säkerställa konsekvent förlustfri prestanda och hantera överbelastning i storskaliga RoCE v2-driftsättningar kan dock vara utmanande och kräver specialiserad expertis.
  • Den dolda kostnaden för "kostnadseffektivitet": RoCE kallas ofta "kostnadseffektivt" eftersom det kan använda befintlig Ethernet-infrastruktur, men detta är en förenkling. Att uppnå InfiniBand-liknande prestanda kräver ett perfekt konfigurerat förlustfritt Ethernet-nätverk. Komplexiteten i att ställa in Data Center Bridging (DCB)-funktioner som PFC och ECN kan vara mycket högre än att konfigurera ett InfiniBand-nätverk. Denna komplexitet leder till högre driftskostnader för nätverksdesign, felsökning och hantering, och kan kräva dyrare Ethernet-switchar. Som ett resultat kan de initiala hårdvarubesparingarna från RoCE uppvägas av dessa högre driftskostnader. En grundlig analys av den totala ägandekostnaden (TCO) är avgörande för en korrekt jämförelse.

D. Centrala användningsområden

RoCE v2 är en utmärkt lösning för många datacenter- och företagsapplikationer. Den är särskilt väl lämpad för miljöer som behöver ultralåg latens och hög genomströmning, såsom AI-arbetsbelastningar, högfrekvenshandel och realtidsanalys. Den förbättrar också prestandan för applikationer som är starkt beroende av databaser eller fil-I/O. Dessutom hjälper RoCE v2 till med affärskontinuitet och katastrofåterställning genom att möjliggöra snabb och effektiv datareplikering. Dess utbredda användning i AI-träningskluster belyser dess betydelse i modern databehandling.

IV. InfiniBand: Den specialiserade högpresterande nätverksstrukturen

InfiniBand är en förstklassig högpresterande sammankopplingsteknik, designad från grunden för att ge oöverträffad hastighet, minimal latens och hög tillförlitlighet för krävande datormiljöer.

A. Arkitektoniska principer

  • Inbyggt RDMA: InfiniBand byggdes med RDMA integrerat i hela sin protokollstack, från det fysiska lagret och uppåt. Denna grundläggande design säkerställer att RDMA-operationer är mycket effektiva, vilket skapar direkta och skyddade datakanaler mellan noder utan processorinblandning.
  • Switchad nätverksstruktur: InfiniBand använder en switchad nätverksstruktur för direkta punkt-till-punkt-anslutningar mellan enheter. Arkitekturen inkluderar värdkanaladaptrar (HCA) på processorer och målkanaladaptrar (TCA) på kringutrustning, vilket möjliggör effektiv kommunikation.
  • Kreditbaserad flödeskontroll: En central egenskap hos InfiniBand är dess kreditbaserade flödeskontroll. Denna algoritm på hårdvarunivå garanterar förlustfri kommunikation genom att säkerställa att en sändare endast överför data om mottagaren har tillräckligt med buffertutrymme (krediter) för att ta emot den. Denna inbyggda tillförlitlighet förhindrar paketförlust och skiljer InfiniBand från tekniker som behöver konfigurationer på högre lager för att vara förlustfria.
  • Proprietära standarder: InfiniBand följer proprietära standarder definierade av InfiniBand Trade Association (IBTA), grundat 1999. Ekosystemet domineras starkt av NVIDIA (genom förvärvet av Mellanox), en ledande tillverkare av InfiniBand-adaptrar och switchar.

B. Prestandaprofil

  • Ultralåg latens: InfiniBand erbjuder konsekvent den lägsta latensen. Adapterlatenser kan vara så låga som 0,5 mikrosekunder, och switch-port-till-port-latensen är runt 100 nanosekunder – betydligt lägre än de 230 nanosekunder som jämförbara Ethernet-switchar har. På applikationslagret kan InfiniBand uppnå latenser så låga som 2 mikrosekunder, jämfört med TCP/IP:s 50 mikrosekunder.
  • Kapacitet för hög genomströmning: InfiniBand stöder extremt höga datahastigheter. Moderna versioner som HDR och NDR erbjuder upp till 200 Gbit/s och 400 Gbit/s per bana. Aggregerade länkar kan uppnå ännu högre genomströmning och nå 800 Gbit/s (NDR) och till och med 1,6 Tbit/s (XDR).
  • Processoreffektivitet: En central styrka hos InfiniBand är dess förmåga att leverera ultralåg latens och extremt hög bandbredd med nästan ingen processoranvändning. Denna avlastning av nätverksbearbetning är en kritisk fördel för beräkningstunga arbetsbelastningar.
  • Prestanda genom design vs. prestanda genom konfiguration: InfiniBand och RoCE har en fundamental skillnad i sitt tillvägagångssätt. InfiniBand var designat från grunden för RDMA, med sina fysiska lager och transportlager konstruerade för tillförlitlighet på hårdvarunivå, inklusive en inbyggd kreditbaserad algoritm för förlustfri kommunikation. I motsats till detta körs RoCE på standard-Ethernet och förlitar sig på konfiguration av funktioner som Priority Flow Control (PFC) och Explicit Congestion Notification (ECN) för att skapa ett förlustfritt nätverk. Detta innebär att InfiniBand ger garanterad hög prestanda direkt ur lådan, medan RoCE:s prestanda beror på kvaliteten på den underliggande Ethernet-konfigurationen.

C. Infrastruktur och hantering

  • Dedikerad hårdvara: InfiniBand kräver specialiserad hårdvara, inklusive dedikerade värdkanaladaptrar (HCA), switchar, routrar och proprietära kablar. Detta resulterar vanligtvis i en högre initial investering jämfört med Ethernet-baserade lösningar.
  • Centraliserad hantering: InfiniBand-nätverk hanteras av en central subnätshanterare (Subnet Manager, SM), som beräknar och distribuerar vidarebefordringstabeller och hanterar konfigurationer som partitioner och Quality of Service (QoS). Detta centraliserade tillvägagångssätt kan förenkla hanteringen i stora kluster efter den initiala installationen.
  • Specialiserad expertis: Att driftsätta och underhålla InfiniBand-nätverk kräver vanligtvis specialiserad kunskap, vilket kan öka driftskostnaderna och skapa en brantare inlärningskurva för IT-personal.
  • Ekosystem: InfiniBand-ekosystemet är moget men domineras av NVIDIA/Mellanox.

D. Centrala användningsområden

InfiniBand är branschstandarden för högpresterande databehandlingsmiljöer (HPC) och är den snabbast växande sammankopplingstekniken för dessa applikationer. Det är den primära tekniken som rekommenderas av IBTA. Dess ultralåga latens och höga bandbredd är avgörande för krävande arbetsbelastningar som storskalig träning av AI/ML-modeller, stordataanalys och massiva databasoperationer. Den är också kritisk för stora simuleringar (t.ex. väderprognoser) och högfrekventa finansiella tjänster, där hastighet och dataintegritet är avgörande. I juni 2022 använde 62 % av Top100-superdatorerna i världen InfiniBand.

V. iWARP: RDMA över standard-TCP/IP

iWARP (Internet Wide Area RDMA Protocol) är en annan metod för att implementera RDMA, känd för sin användning av den vanliga TCP/IP-protokollsviten.

A. Arkitektoniska principer

  • RDMA över TCP/IP: iWARP är ett protokoll som implementerar RDMA över standard-IP-nätverk. Till skillnad från RoCE, som använder UDP, är iWARP byggt ovanpå tillförlitliga transportprotokoll som TCP och SCTP.
  • Centrala komponenter: iWARP:s funktion förlitar sig på flera komponenter. Direct Data Placement Protocol (DDP) möjliggör zero-copy-överföring genom att placera data direkt i en applikations minne. Remote Direct Memory Access Protocol (RDMAP) tillhandahåller tjänsterna för RDMA-läs- och skrivoperationer. Ett specifikt anpassningslager, Marker PDU Aligned (MPA) framing, behövs för att möjliggöra DDP över TCP.
  • Tillförlitlighet: En unik egenskap hos iWARP är att dess tillförlitlighet tillhandahålls av det underliggande TCP-protokollet. Detta skiljer sig från RoCE v2, som använder UDP och kräver externa mekanismer som Data Center Bridging (DCB) för tillförlitlighet. Som ett resultat stöder iWARP endast tillförlitlig, ansluten kommunikation.

B. Prestandaprofil

  • Jämförande latens och genomströmning: Även om iWARP har lägre latens än traditionellt TCP/IP, är dess prestanda generellt sämre än RoCE. År 2011 var den lägsta iWARP HCA-latensen 3 mikrosekunder, medan RoCE HCA:er nådde 1,3 mikrosekunder. Prestandatester visar konsekvent att RoCE levererar meddelanden mycket snabbare än iWARP, med en genomströmning som är mer än dubbelt så hög vid 40GbE och fem gånger så hög vid 10GbE.
  • Processoravlastning: Precis som andra RDMA-protokoll minimerar iWARP processorbelastningen genom att möjliggöra direkta minnesöverföringar. Det kan använda TCP Offload Engines (TOE) med RDMA-hårdvara för att uppnå zero-copy-resultat och ytterligare minska processorinblandningen.

C. Infrastruktur och hantering

  • Kompatibilitet med standard-Ethernet: En stor fördel med iWARP är dess förmåga att köras över standard-Ethernet-infrastruktur med minimala ändringar i det befintliga nätverket. Detta gör att organisationer kan utnyttja sina nuvarande investeringar.
  • Hårdvarukrav: Trots sin kompatibilitet med standard-Ethernet-switchar kräver iWARP fortfarande iWARP-kapabla nätverkskort vid ändpunkterna.
  • Integrationsaspekter: iWARP är integrerat i stora operativsystem som Microsoft Windows Server och moderna Linux-kärnor. Detta stöder applikationer som SMB Direct, iSCSI Extensions for RDMA (iSER) och Network File System over RDMA (NFS over RDMA).
  • Hanteringsutmaningar: Att hantera iWARP-trafik kan vara svårt. Det delar TCP:s portutrymme, vilket komplicerar flödeshantering och gör det svårt att identifiera RDMA-trafik. Sammantaget anses iWARP vara svårare att hantera än RoCE.

D. Marknadsrelevans

  • Begränsad adoption: iWARP är en "ovanlig" eller "mindre vanligt använd" RDMA-implementation jämfört med InfiniBand och RoCE v2. Dess lösningar har haft "begränsad framgång" på grund av utmaningar med implementation och driftsättning.
  • Paradoxen med TCP-beroende: iWARP:s designval att lägga RDMA ovanpå TCP ger inbyggd tillförlitlighet och kompatibilitet, men paradoxalt nog hindrar det tekniken från att fullt ut uppnå de centrala fördelarna med RDMA. Den inneboende overheaden i TCP-protokollet, även med hårdvaruavlastning, verkar hindra iWARP från att nå den ultralåga latens och höga genomströmning som InfiniBand eller RoCE erbjuder. Denna prestandakompromiss har lett till dess begränsade marknadsadoption.

VI. Jämförande analys: RoCE v2 vs. InfiniBand vs. iWARP vs. Standard-Ethernet

En detaljerad jämförelse av prestanda, infrastruktur och driftsmässiga mätvärden är nyckeln till att välja rätt högpresterande sammankopplingsteknik.

A. Prestandajämförelser

Prestandan hos dessa sammankopplingstekniker skiljer sig avsevärt, särskilt när det gäller latens, bandbredd och processoranvändning.

  • Latens:
    • InfiniBand: Erbjuder den lägsta latensen. Switch-port-till-port-latens är runt 100 nanosekunder, medan adapterlatensen är så låg som 0,5 till 1,3 mikrosekunder. Latens på applikationsnivå kan vara så låg som 2 mikrosekunder.
    • RoCE v2: Ger ultralåg latens. Ethernet-switch-latens är runt 230 nanosekunder, medan HCA-latensen kan vara så låg som 1,3 mikrosekunder. Latens på applikationsnivå är vanligtvis runt 5 mikrosekunder.
    • iWARP: Har högre latens än RoCE, med en rapporterad HCA-latens runt 3 mikrosekunder (data från 2011). Presterar konsekvent sämre än RoCE.
    • Standard TCP/IP: Har den högsta latensen, med enkelriktad latens från 10 till 55 millisekunder. Latens på applikationsnivå är vanligtvis runt 50 mikrosekunder.
  • Bandbredd:
    • InfiniBand: Stöder mycket hög bandbredd. Moderna versioner som NDR erbjuder upp till 400 Gbit/s per port, och XDR når upp till 800 Gbit/s. Framtida GDR beräknas nå 1,6 Tbit/s.
    • RoCE v2: Kapabel till hög bandbredd, stöder upp till 400 Gbit/s per port.
    • iWARP: Har generellt lägre genomströmning än RoCE.
    • Standard TCP/IP: Genomströmningen begränsas ofta av protokoll-overhead och omsändningar, vilket gör det svårt att effektivt utnyttja länkar med hög bandbredd.
  • Processoravlastning:
    • InfiniBand, RoCE v2, iWARP: Alla tre RDMA-teknikerna avlastar betydande processorarbete genom att kringgå operativsystemet, vilket frigör processorresurser för andra uppgifter.
    • Standard TCP/IP: Medför hög processorbelastning eftersom kärnan är starkt involverad i databearbetning.
  • Mekanism för förlustfrihet:
    • InfiniBand: Har inbyggd, kreditbaserad flödeskontroll på hårdvarunivå, vilket garanterar förlustfri kommunikation.
    • RoCE v2: Förlitar sig på en förlustfri Ethernet-konfiguration med hjälp av Data Center Bridging (DCB)-funktioner som PFC och ECN. Den har också en ändpunkt-till-ändpunkt-mekanism för tillförlitlig leverans med hårdvarubaserade omsändningar.
    • iWARP: Använder TCP:s inbyggda tillförlitliga transport för dataintegritet.
    • Standard TCP/IP: Använder en "bästa förmåga"-leveransmodell och förlitar sig på omsändningar på högre lager för att säkerställa tillförlitlighet, vilket adderar latens.

Följande tabell sammanfattar prestandaegenskaperna:

Egenskap InfiniBand RoCE v2 iWARP Standard Ethernet/TCP/IP
Kärnteknik Inbyggt RDMA RDMA över Ethernet (UDP/IP) RDMA över Ethernet (TCP/IP) Traditionellt skiktat protokoll
Typisk applikationslatens (µs) 2 5 >3 (2011 HCA) 50
Switch port-till-port-latens (ns) 100 230 Ej tillämpligt (förlitar sig på Ethernet) Vanligtvis högre, variabel
Max bandbredd (Gbit/s per port/länk) 400 (NDR), 800 (XDR), 1,6T (GDR) 400 Generellt lägre än RoCE 400+ (men begränsat av protokoll-overhead)
Processorbelastning Nära noll Mycket låg Låg Hög
Mekanism för förlustfrihet Inbyggd kreditbaserad flödeskontroll Kräver förlustfritt Ethernet (PFC, ECN) TCP:s tillförlitliga transport Bästa förmåga, förlitar sig på omsändningar
Dirigerbarhet (L2/L3) L3 (via Subnet Manager) L3 (Routable RoCE) L3 L3 (Standard IP-dirigering)

B. Infrastruktur och ekosystem

  • Hårdvaruberoenden:
    • InfiniBand: Kräver en komplett uppsättning specialiserad hårdvara, inklusive InfiniBand HCA:er, switchar och proprietära kablar.
    • RoCE v2: Kräver RoCE-kapabla HCA:er men fungerar över standard-Ethernet-switchar och -kablar, vilket möjliggör integration med befintliga nätverk.
    • iWARP: Kräver iWARP-kapabla nätverkskort men kan använda standard-Ethernet-switchar.
    • Standard-Ethernet: Använder allmänt tillgängliga standard-NIC:ar och switchar för Ethernet.
  • Leverantörsinlåsning:
    • InfiniBand: Ekosystemet är begränsat och domineras av Mellanox (NVIDIA), vilket kan väcka oro för leverantörsinlåsning.
    • RoCE v2: Drar nytta av ett stort och konkurrenskraftigt Ethernet-ekosystem med flera leverantörer. Vissa erbjuder "Universal RDMA"-NIC:ar som stöder både RoCE och iWARP, vilket minskar inlåsningen.
    • iWARP: Drar också nytta av det breda Ethernet-ekosystemet, med stöd från leverantörer som Intel och Chelsio.
  • Interoperabilitet:
    • InfiniBand: Som en proprietär standard måste alla komponenter följa IBTA-specifikationerna för att säkerställa att de fungerar tillsammans.
    • RoCE v2: Dess grund på standard-Ethernet möjliggör bredare interoperabilitet och enklare integration med befintliga nätverk.
    • iWARP: Baserat på standard IETF RFC:er för TCP/IP, vilket säkerställer hög kompatibilitet inom standard-IP-nätverk.

C. Kostnadseffektivitet

  • Initial investering:
    • InfiniBand: Kräver vanligtvis en högre initial investering på grund av specialiserad hårdvara och licensiering. För stora AI-kluster kan InfiniBand-switchar vara betydligt dyrare än RoCE-switchar.
    • RoCE v2: Ofta ett mer kostnadseffektivt alternativ eftersom det kan integreras med befintligt Ethernet, vilket minskar kostnaderna för ny hårdvara. Besparingarna på switchar för stora AI-kluster kan vara betydande (49 % till 70 % jämfört med InfiniBand).
    • iWARP: Använder standard-Ethernet-switchar men kräver specialiserade adaptrar, vilket fortfarande kan vara en anmärkningsvärd kostnad.
    • Standard-Ethernet: Generellt det billigaste alternativet på grund av sin standardhårdvara.
  • Total ägandekostnad (TCO):
    • InfiniBand: Tenderar att ha en högre TCO på grund av specialiserad hårdvara, underhåll och behovet av personalutbildning i en proprietär teknik.
    • RoCE v2: Kan ha en lägre TCO, men detta är villkorat. Komplexiteten i att konfigurera och underhålla en förlustfri Ethernet-struktur kan öka driftskostnaderna avsevärt. Medan initiala hårdvarukostnader kan vara lägre, kan den specialiserade kunskapen och ansträngningen som krävs för design, felsökning och underhåll motverka dessa besparingar. Därför beror "kostnadseffektivitet" på både hårdvarupris och organisationens expertis och hanteringsbörda.
    • iWARP: Integrations- och hanteringsutmaningar kan påverka dess totala TCO.

Följande tabell ger en jämförande översikt över infrastruktur- och kostnadsaspekter:

Egenskap InfiniBand RoCE v2 iWARP Standard Ethernet/TCP/IP
Nätverkshårdvara som krävs Dedikerade IB NIC:ar, IB-switchar, IB-kablar RoCE-kapabla NIC:ar, Standard Ethernet-switchar/-kablar iWARP-kapabla NIC:ar, Standard Ethernet-switchar/-kablar Standard Ethernet-NIC:ar, Ethernet-switchar/-kablar
Nätverkskompatibilitet Proprietär (IBTA-standard) Standard-Ethernet (IEEE) Standard-Ethernet (IETF RFC:er) Standard-Ethernet (IEEE)
Hanteringskomplexitet Svår (Specialiserad SM) Svår (Konfiguration av förlustfritt Ethernet) Svårare än RoCE Lätt
Initial hårdvarukostnad (relativ) Hög Måttlig (Utnyttjar befintlig) Måttlig (Specialiserade NIC:ar) Låg
Total ägandekostnad (relativ) Högre Lägre (Villkorat av hantering) Variabel (Integrationsutmaningar) Lägst
Leverantörsekosystem Begränsat (NVIDIA/Mellanox dominerar) Brett (Flera Ethernet-leverantörer) Brett (Flera Ethernet-leverantörer) Mycket brett

D. Skalbarhet och flexibilitet

  • Dirigeringskapacitet:
    • InfiniBand: Använder en switchad nätverksstruktur med dirigering som hanteras centralt av en Subnet Manager (SM). Den är mycket skalbar och stöder kluster med över 100 000 noder.
    • RoCE v2: Dess UDP/IP-inkapsling gör att den kan dirigeras över Layer 3 IP-nätverk, vilket gör den skalbar över stora nätverk och molnmiljöer. Den stöder också ECMP för effektiv lastbalansering.
    • iWARP: Är dirigerbar över IP-nätverk.
    • Standard-Ethernet: Mycket skalbar och flexibel, men kan kräva avancerade konfigurationer som spine-leaf-arkitekturer för HPC-nivå av effektivitet.
  • Nätverkstopologier:
    • InfiniBand: Optimerad för HPC/AI-kluster, stöder högpresterande topologier som Fat Tree, Dragonfly+ och flerdimensionell Torus.
    • RoCE v2: Dess IP-baserade dirigering gör den anpassningsbar till nästan vilken nätverkstopologi som helst.
    • Standard-Ethernet: Stöder ett brett utbud av topologier, inklusive stjärn- och mesh-nätverk.

E. Tillförlitlighet och överbelastningskontroll

  • Tillförlitlighet:
    • InfiniBand: Ger inbyggd tillförlitlighet på hårdvarunivå med sin kreditbaserade flödeskontroll, vilket garanterar förlustfri kommunikation.
    • RoCE v2: Förlitar sig på en förlustfri Ethernet-konfiguration med PFC och ETS. Den inkluderar också en ändpunkt-till-ändpunkt-mekanism för tillförlitlig leverans med hårdvarubaserad paketomsändning.
    • iWARP: Drar nytta av TCP:s inneboende tillförlitlighet, som tillhandahåller felkorrigering och omsändningar.
    • Standard TCP/IP: Fokuserar på tillförlitlighet genom omsändningar, vilket kan addera betydande latens och minska genomströmningen.
  • Överbelastningskontroll:
    • InfiniBand: Definerar sina egna mekanismer för överbelastningskontroll baserade på FECN/BECN-markering.
    • RoCE v2: Implementerar ett protokoll för överbelastningskontroll med IP ECN-bitar och Congestion Notification Packets (CNP). Branschpraxis som DCQCN används också.
    • iWARP: Förlitar sig på TCP:s etablerade algoritmer för överbelastningskontroll.

F. Lämplighet för olika applikationer

  • InfiniBand: Det idealiska valet för miljöer som behöver den högsta datagenomströmningen och lägsta latensen. Detta inkluderar vetenskaplig forskning, finansiell modellering, storskaliga HPC-kluster och de mest krävande AI/ML-träningsarbetsbelastningarna.
  • RoCE v2: Föredras av företag som vill använda sin befintliga Ethernet-infrastruktur men ändå behöver hög prestanda. Det är väl lämpat för lagringsnätverk, realtidsanalys och molntjänster, och erbjuder en balans mellan prestanda och kostnad.
  • iWARP: Kan övervägas för nischapplikationer där befintlig TCP/IP-infrastruktur är ett strikt krav och ultralåg latens inte är högsta prioritet. Det är lämpligt för applikationer som NVMeoF, iSER, SMB Direct och NFS over RDMA, eller som ett lågkostnadsalternativ för testmiljöer.
  • Standard-Ethernet/TCP/IP: Förblir det bästa valet för allmänna nätverksändamål, såsom företags-LAN och molninfrastruktur där extrem HPC/AI-prestanda inte är huvudmålet.
  • Trilemmat mellan prestanda, kostnad och komplexitet: Denna analys avslöjar en fundamental avvägning vid val av sammankopplingsteknik: ett trilemma mellan prestanda, kostnad och komplexitet. InfiniBand erbjuder topprestanda och inbyggd tillförlitlighet men till en högre kostnad. RoCE v2 ger nästan InfiniBand-prestanda på Ethernet, vilket potentiellt sänker hårdvarukostnaderna men adderar betydande konfigurationskomplexitet. iWARP erbjuder RDMA över TCP men med lägre prestanda. Standard-Ethernet är kostnadseffektivt men saknar prestandan för krävande arbetsbelastningar. Det finns ingen enskild "bästa" lösning; rätt val kräver en balans mellan dessa tre faktorer baserat på specifika behov och förmågor.

Följande tabell beskriver applikationslämpligheten för varje teknik:

Teknik Primära användningsfall Bäst lämpad för Mindre lämpad för
InfiniBand HPC, AI/ML-träning, stordataanalys, finansiella tjänster (arbitrage) Miljöer som kräver absolut lägsta latens, högsta bandbredd och inbyggda garantier för förlustfrihet Kostnadskänsliga allmänna företagsnätverk, miljöer utan specialiserad IT-expertis
RoCE v2 Datacenter, molntjänster, lagringsnätverk, realtidsanalys, AI/ML-inferens Organisationer som utnyttjar befintlig Ethernet-infrastruktur för hög prestanda; balans mellan kostnad och prestanda Miljöer där inbyggda garantier för förlustfrihet är icke-förhandlingsbara utan omfattande konfigurationsexpertis
iWARP NVMeoF, iSER, SMB Direct, NFS over RDMA, test-/utvecklingsmiljöer Specifika applikationer som kräver RDMA över befintligt TCP/IP, där absolut topprestanda inte är avgörande Storskaliga HPC/AI-kluster, latenskänsliga realtidsapplikationer
Standard Ethernet/TCP/IP Allmänna företagsnätverk, LAN, internetanslutning, molninfrastruktur Allestädes närvarande, kostnadseffektiva och flexibla allmänna nätverk Högpresterande databehandling, AI/ML-träning och andra latenskänsliga, processorkrävande arbetsbelastningar

VII. Nya högpresterande sammankopplingstekniker och framtida trender

Landskapet för högpresterande nätverk förändras ständigt, drivet av dataintensiva arbetsbelastningar och behovet av större effektivitet. Utöver etablerade RDMA-tekniker formar nya sammankopplingar och trender framtidens datacenter.

A. Compute Express Link (CXL)

CXL är en modern sammankopplingsteknik byggd på det fysiska PCIe-lagret, designad för allmänna datorsystem. Dess huvudmål är att möjliggöra snabb, sömlös kommunikation mellan processorer och acceleratorer som GPU:er och FPGA:er.

Nyckelfunktioner i CXL inkluderar höghastighetsdataöverföring, bred kompatibilitet och effektiv minnesdelning genom cache-koherens. Den stöder tre enhetstyper (för acceleratorer, cache-koherenta enheter och minnesutbyggare) och flexibla topologier. CXL/PCIe Gen5 erbjuder en toppgenomströmning på 512 Gbit/s med en latens på cirka 500 nanosekunder. Även om InfiniBand har lägre latens (cirka 100 nanosekunder), är CXL överlägset för minnesåtkomst med låg latens där cache-koherens är kritisk.

En stor utveckling var sammanslagningen av Gen-Z och CXL-konsortierna 2022, vilket positionerar CXL som den enda branschstandarden för denna klass av minnesfokuserade sammankopplingstekniker.

CXL representerar ett skifte från traditionell nod-till-nod-nätverk (som RoCE och InfiniBand) mot minneskoherens och resursdisaggregering. Detta innebär att CXL för vissa arbetsbelastningar kan bli den primära sammankopplingen, som kompletterar eller minskar behovet av traditionella nätverksstrukturer.

B. NVLink

NVLink är NVIDIAs proprietära högbandbredds-, låglatens-sammankoppling, konstruerad för direkt GPU-till-GPU- och GPU-till-CPU-kommunikation inom sina accelererade datorplattformar.

NVLink är en central del av NVIDIAs lösningar för AI och HPC, såsom dess GB200- och GB300-arkitekturer. Den är avgörande för att skala AI-modellträning genom att tillhandahålla extremt snabba dataöverföringar mellan GPU:er.

NVLink visar en trend mot vertikal integration och specialiserad prestanda. Dess proprietära natur står i kontrast till öppna standarder som RoCE eller InfiniBand. Denna design maximerar prestandan inom en enskild leverantörs hårdvarustack. Medan InfiniBand och RoCE hanterar allmän nätverkskommunikation mellan noder, optimerar NVLink kommunikationen inom och mellan GPU-system, vilket skapar en skiktad sammankopplingsarkitektur där olika tekniker tjänar olika behov.

C. Framtida Ethernet-hastigheter

Ethernet har utvecklats från 10 Mbit/s till 400 Gbit/s, och utvecklingen fortsätter med 800GbE- och 1.6TbE-standarder vid horisonten. Dessa snabbare hastigheter kommer att vara avgörande för nästa generations applikationer som kvantdatorer, avancerad AI och immersiva teknologier.

Den kontinuerliga ökningen av Ethernet-hastigheter gynnar RoCE direkt. Eftersom RoCE bygger på Ethernet, drar det automatiskt nytta av dessa framsteg, vilket hjälper det att förbli konkurrenskraftigt med InfiniBand. Tillväxten av molntjänster driver redan på utbyggnaden av 200GbE och 400GbE, med 800GbE och 1.6TbE som nästa steg.

Den fortsatta relevansen av Ethernet och RoCE är nära sammanlänkade. När Ethernet-hastigheterna avancerar blir RoCE en ännu starkare utmanare för högpresterande datacenter, särskilt för organisationer som vill utnyttja sina befintliga Ethernet-investeringar och undvika proprietära ekosystem.

D. Disaggregerad databehandling och fotonik

  • Disaggregerad databehandling: Detta nya tillvägagångssätt syftar till att förbättra datacentereffektiviteten genom att frikoppla resurser som beräkning, lagring och minne från traditionella servrar. Dessa resurser återmonteras sedan i flexibla pooler anslutna via avancerade nätverk. Ett centralt resultat är att kommunikation som en gång skedde inuti en server nu korsar nätverket, vilket dramatiskt ökar belastningen och gör ultralåg latens kritisk. Denna trend förstärker behovet av högpresterande sammankopplingstekniker som RoCE och InfiniBand och driver utvecklingen av nya som CXL.
  • Fotonik i datacenternätverk: Kisel-fotonik integrerar optiska komponenter på kiselchip, vilket möjliggör optiska sammankopplingar med hög hastighet och låg effekt. Denna teknik erbjuder mycket snabbare dataöverföringshastigheter (över 100 Gbit/s), lägre latens och bättre energieffektivitet än traditionell koppar. Den blir avgörande för att möta de växande trafikbehoven i datacenter och möjliggöra nästa generation av höghastighets-Ethernet.

Förhållandet mellan dessa trender är symbiotiskt. Disaggregerade arkitekturer kräver avancerade nätverk, vilket sammankopplingstekniker som RoCE, InfiniBand och CXL tillhandahåller. I sin tur kommer uppnåendet av de nödvändiga hastigheterna för dessa sammankopplingar, särskilt för framtida 800GbE- och 1.6TbE-standarder, att förlita sig på tekniker som kisel-fotonik.

VIII. Rekommendationer och slutsats

Att välja en högpresterande sammankopplingsteknik är ett kritiskt strategiskt beslut som måste överensstämma med en organisations specifika behov, budget, infrastruktur och långsiktiga vision.

  • För maximal råprestanda och verksamhetskritisk HPC/AI: InfiniBand är den tydliga guldstandarden. Dess inbyggda RDMA, kreditbaserade flödeskontroll och specialbyggda design levererar den lägsta latensen och högsta genomströmningen med garanterad förlustfri prestanda. Organisationer med budget och expertis bör välja InfiniBand för storskaliga kluster där varje mikrosekund räknas.
  • För hög prestanda med kostnadseffektivitet och Ethernet-integration: RoCE v2 är ett starkt och alltmer populärt alternativ. Det erbjuder stora prestandaförbättringar jämfört med TCP/IP och kan närma sig InfiniBands prestanda genom att använda befintlig Ethernet-infrastruktur. Det är idealiskt för organisationer som uppgraderar sina datacenter utan en fullständig ombyggnad. Detta val kräver dock ett åtagande att noggrant konfigurera och hantera en förlustfri Ethernet-struktur.
  • För nischapplikationer eller äldre RDMA-över-TCP-miljöer: iWARP kan vara lämpligt i specifika fall, särskilt där användning av befintlig TCP/IP-infrastruktur är ett måste och topprestanda inte är det primära målet. Dess lägre prestanda och högre hanteringskomplexitet begränsar dock dess användning i moderna högpresterande driftsättningar.
  • För allmänna nätverksändamål: Standard-Ethernet/TCP/IP förblir det vanligaste och mest kostnadseffektiva valet för miljöer utan extrema prestandakrav. Dess användarvänlighet och standardhårdvara gör det perfekt för allmänna företagsnätverk, LAN och standardmolninfrastruktur.
  • Att överväga ny teknik för framtidssäkring: Organisationer bör bevaka utvecklingen av CXL för minnescentrerade och disaggregerade arkitekturer, eftersom det kompletterar traditionella nätverksstrukturer genom att optimera resurspoolning. På samma sätt är NVLink kritiskt för att optimera kommunikationen inom NVIDIAs GPU-tunga system. Dessa tekniker visar en diversifiering av sammankopplingstekniker för olika lager i beräkningshierarkin. Dessutom kommer utvecklingen av 800GbE och 1.6TbE Ethernet, tillsammans med framsteg inom fotonik, att fortsätta göra RoCE till ett ännu kraftfullare alternativ.

Sammanfattningsvis är landskapet för högpresterande nätverk komplext, drivet av kraven från AI, HPC och skiftet mot disaggregerad databehandling. Medan InfiniBand leder i absolut prestanda för specialiserade miljöer, erbjuder RoCE v2 ett kraftfullt och flexibelt alternativ som överbryggar RDMA:s fördelar med Ethernets allmängiltighet. Framväxten av CXL och NVLink indikerar en strategisk diversifiering av sammankopplingstekniker, som optimerar olika kommunikationslager. Den optimala lösningen kommer alltid att vara en strategisk balans mellan prestandakrav, kostnad, befintlig infrastruktur och en framåtblickande vision.

Lämna en kommentar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *