I. Managementsamenvatting
Moderne datacenters moeten veeleisende workloads ondersteunen, zoals High-Performance Computing (HPC), Kunstmatige Intelligentie/Machine Learning (AI/ML) en Big Data-analyse. Deze applicaties vereisen een ultralage latentie, hoge bandbreedte en minimaal CPU-gebruik. Traditionele netwerkprotocollen zoals TCP/IP kunnen hier niet aan voldoen vanwege hun hoge overhead en latentie.
Remote Direct Memory Access (RDMA) is de sleuteltechnologie die high-performance interconnects mogelijk maakt. RDMA stelt computers in een netwerk in staat om data direct tussen hun geheugen uit te wisselen zonder tussenkomst van hun besturingssystemen of CPU's (geheugen-naar-geheugen). Dit proces vermindert de latentie en CPU-belasting drastisch.
- InfiniBand is een speciaal ontworpen, propriëtaire fabric die is ontwikkeld voor de hoogst mogelijke prestaties en een native verliesvrije werking.
- RoCE v2 (RDMA over Converged Ethernet) past de voordelen van RDMA toe op standaard Ethernet, wat een routeerbare en kosteneffectievere optie biedt, maar vereist specifieke configuraties om verliesvrij te zijn.
- iWARP is een andere RDMA-over-Ethernet-oplossing gebaseerd op TCP, maar is over het algemeen minder gebruikelijk en biedt lagere prestaties dan RoCE v2.
De juiste interconnect kiezen is een strategische beslissing die afhangt van prestatie-eisen, budget, bestaande infrastructuur en schaalbaarheidsdoelen. Dit rapport analyseert deze technologieën, vergelijkt ze met standaard Ethernet/TCP/IP en onderzoekt nieuwe alternatieven zoals CXL en NVLink om deze cruciale beslissing te ondersteunen.
II. Inleiding tot High-Performance Networking en RDMA
De huidige digitale wereld wordt gekenmerkt door een exponentiële groei van data-intensieve applicaties zoals High-Performance Computing (HPC), Kunstmatige Intelligentie/Machine Learning (AI/ML) en Big Data-analyse. Deze workloads vereisen dat enorme datasets snel en efficiënt worden verplaatst tussen rekenknooppunten en opslag. AI-applicaties zijn bijvoorbeeld zeer gevoelig voor data-integriteit en hebben verliesvrije netwerken nodig, waarbij een enkel verloren bericht een volledige trainingscyclus kan verstoren. Verkeer met hoge bandbreedte is ook essentieel voor deze applicaties om data efficiënt te verwerken.
Beperkingen van traditioneel TCP/IP Ethernet voor High-Performance Applicaties
Hoewel betrouwbaar voor algemeen netwerkgebruik, heeft traditioneel TCP/IP Ethernet grote beperkingen voor high-performance applicaties:
- Hoge latentie en CPU-overhead: Het ontwerp van TCP/IP verstuurt data door meerdere softwarelagen in de kernel van het besturingssysteem, wat aanzienlijke CPU-betrokkenheid vereist. Dit proces voegt aanzienlijke latentie toe (doorgaans tientallen microseconden) en legt een zware last op de CPU. Voor latentiegevoelige applicaties wordt dit een groot knelpunt, omdat de CPU zijn tijd besteedt aan het beheren van netwerkverkeer in plaats van aan het uitvoeren van de applicatie. Deze 'CPU-belasting' door context-switches en het kopiëren van data is een belangrijke reden om RDMA-technologieën te gebruiken, die de netwerkverwerking overnemen en de CPU vrijmaken voor applicatietaken.
- Doorvoerbeperkingen: Verschillende factoren beperken de effectieve doorvoer van TCP, waaronder de grootte van het transmissievenster, segmentgrootte en pakketverlies. De standaard TCP-venstergrootte (vaak beperkt tot 65.535 bytes) kan het volledige gebruik van verbindingen met hoge bandbreedte in de weg staan, vooral op netwerken met een hogere latentie. Bovendien introduceert het kernmechanisme van TCP voor betrouwbaarheid – pakket hertransmissie – vertragingen en verbruikt het extra bandbreedte, wat de prestaties in overbelaste of verliesgevende netwerken schaadt.
- Schaalbaarheidsuitdagingen: Hoewel TCP/IP goed schaalt voor grote netwerken, geeft het ontwerp prioriteit aan algemene betrouwbaarheid boven pure prestaties. Dit maakt het minder effectief voor scenario's die extreme doorvoer en minimale latentie vereisen, zoals grootschalige HPC-clusters of real-time AI-inferentie.
Basisprincipes van Remote Direct Memory Access (RDMA) en de belangrijkste voordelen
Remote Direct Memory Access (RDMA) is ontwikkeld om de beperkingen van TCP/IP in high-performance omgevingen te overwinnen. De belangrijkste voordelen komen voort uit het omzeilen van de CPU en het besturingssysteem tijdens dataoverdracht:
- Directe Geheugentoegang (Zero-Copy): RDMA draagt data rechtstreeks over van het geheugen van de ene computer naar dat van een andere, zonder tussenkomst van de CPU of het besturingssysteem van beide systemen. Deze 'zero-copy'-benadering elimineert tussenliggende databuffers en context-switches, die belangrijke bronnen van overhead zijn in traditionele netwerken.
- Verminderde latentie en CPU-belasting: Door de CPU en het besturingssysteem te omzeilen, verlaagt RDMA de communicatielatentie drastisch en maakt het CPU-cycli vrij. Dit leidt direct tot snellere berekeningen en betere real-time dataverwerking. De applicatielatentie kan bijvoorbeeld dalen van ongeveer 50 microseconden met TCP/IP tot slechts 2-5 microseconden met RDMA.
- Hoger gebruik van bandbreedte: Het efficiënte datapad en de verminderde overhead van RDMA stellen applicaties in staat om de beschikbare netwerkbandbreedte beter te benutten, wat resulteert in een hogere effectieve doorvoer.
- Belangrijkste implementaties: De belangrijkste RDMA-technologieën die vandaag de dag worden gebruikt, zijn InfiniBand, RoCE (versies 1 en 2) en iWARP.
III. RoCE v2: RDMA over Converged Ethernet
RoCE v2 is een grote stap voorwaarts in high-performance networking en breidt de voordelen van RDMA uit naar het wijdverbreide Ethernet-ecosysteem.
A. Architectonische principes
- Evolutie van RoCE v1: RoCE v1 was een Layer 2-protocol (Ethertype 0x8915), wat het beperkte tot een enkel Ethernet-broadcastdomein en de schaalbaarheid ervan limiteerde. RoCE v2 lost dit op door op de internetlaag te opereren. Het kapselt RDMA-verkeer in UDP/IP-pakketten (met UDP-bestemmingspoort 4791), waardoor het routeerbaar wordt over Layer 3 IP-netwerken. Deze routeerbaarheid is een cruciale verbetering, waardoor RoCE v2 kan worden gebruikt in grootschalige datacenters en cloudomgevingen.
- Integratie van RDMA over Ethernet: RoCE biedt een methode om RDMA uit te voeren over een standaard Ethernet-netwerk. Het vervangt feitelijk de InfiniBand-netwerklaag door IP- en UDP-headers, terwijl de kern van de InfiniBand-transportlaag en het RDMA-protocol behouden blijven. Dit ontwerp stelt RoCE in staat om te profiteren van de bestaande Ethernet-infrastructuur.
- Pakketformaat: Een RoCE v2-pakket bevat een IP-header en een UDP-header, die het RDMA Transport Protocol inkapselen. Hoewel UDP de pakketvolgorde niet garandeert, vereist de RoCE v2-standaard dat pakketten met dezelfde bronpoort en hetzelfde bestemmingsadres niet van volgorde mogen veranderen.
- Het 'beste van twee werelden'-compromis: Het ontwerp van RoCE v2 is een strategisch compromis, gericht op het leveren van de hoge prestaties van RDMA op het flexibele, kosteneffectieve en alomtegenwoordige Ethernet-platform. Hoewel deze aanpak brede compatibiliteit biedt, creëert het een belangrijke uitdaging: het waarborgen van de verliesvrije prestaties die RDMA nodig heeft over een Ethernet-netwerk, dat van nature verliesgevend is.
B. Prestatieprofiel
- Latentie: RoCE Host Channel Adapters (HCA's) kunnen zeer lage latencies bereiken, tot wel 1,3 microseconden. Op applicatieniveau reduceert RoCE de latentie tot ongeveer 5 microseconden, een enorme verbetering ten opzichte van de 50 microseconden die typisch zijn voor TCP/IP. Hoewel InfiniBand een iets lagere native latentie biedt, zijn de prestaties van RoCE uitstekend voor real-time applicaties.
- Bandbreedte: RoCE v2 ondersteunt hoge bandbreedtes, met snelheden tot 400 Gbps per poort.
- CPU-offload: Net als andere RDMA-protocollen omzeilt RoCE de CPU voor dataoverdrachten. Deze offloading maakt waardevolle CPU-bronnen vrij voor rekenintensieve taken in plaats van voor netwerkverwerking.
- Verliesvrije prestaties: Om de prestaties van InfiniBand te evenaren, is RoCE afhankelijk van een verliesvrij Ethernet-netwerk. Dit wordt doorgaans bereikt door de implementatie van Data Center Bridging (DCB)-functies, met name Priority Flow Control (PFC) en Explicit Congestion Notification (ECN).
C. Infrastructuur en beheer
- Hardware/softwarevereisten: RoCE werkt met standaard Ethernet-hardware zoals switches en kabels, waardoor organisaties hun bestaande infrastructuur kunnen gebruiken. Het vereist echter wel RoCE-compatibele Host Channel Adapters (HCA's) op de eindpunten. De softwareondersteuning is volwassen, met implementaties in Mellanox OFED 2.3+ en geïntegreerd in Linux Kernel v4.5+.
- Configuratie van verliesvrij netwerk: Hoewel RoCE standaard Ethernet gebruikt, kan het opzetten van een verliesvrij DCB-netwerk complexer zijn dan het opzetten van een InfiniBand-netwerk. Elk component, van eindpunten tot switches, moet zorgvuldig worden geconfigureerd. Dit omvat het instellen van Priority Flow Control (PFC), Enhanced Transmission Selection (ETS) en mechanismen voor congestiemelding. Om over Layer 3-netwerken te werken, moeten deze verliesvrije eigenschappen over routers heen behouden blijven, vaak door Layer 2-prioriteitsinstellingen te koppelen aan Layer 3 DSCP QoS-instellingen.
- Beheeroverwegingen: RoCE kan worden beheerd met standaard Ethernet-tools. Het waarborgen van consistente verliesvrije prestaties en het beheren van congestie in grootschalige RoCE v2-implementaties kan echter een uitdaging zijn en vereist gespecialiseerde expertise.
- De verborgen kosten van 'kosteneffectiviteit': RoCE wordt vaak 'kosteneffectief' genoemd omdat het gebruik kan maken van bestaande Ethernet-infrastructuur, maar dit is een te eenvoudige voorstelling van zaken. Om InfiniBand-achtige prestaties te bereiken, is een perfect geconfigureerd verliesvrij Ethernet-netwerk vereist. De complexiteit van het opzetten van Data Center Bridging (DCB)-functies zoals PFC en ECN kan veel groter zijn dan het configureren van een InfiniBand-netwerk. Deze complexiteit leidt tot hogere operationele kosten voor netwerkontwerp, probleemoplossing en beheer, en kan duurdere Ethernet-switches vereisen. Hierdoor kunnen de initiële hardwarebesparingen van RoCE teniet worden gedaan door deze hogere operationele kosten. Een grondige analyse van de totale eigendomskosten (TCO) is essentieel voor een nauwkeurige vergelijking.
D. Belangrijkste toepassingen
RoCE v2 is een uitstekende oplossing voor veel datacenter- en bedrijfsapplicaties. Het is bijzonder geschikt voor omgevingen die een ultralage latentie en hoge doorvoer vereisen, zoals AI-workloads, hoogfrequente handel en real-time analyse. Het verbetert ook de prestaties van applicaties die sterk afhankelijk zijn van databases of bestands-I/O. Daarnaast helpt RoCE v2 bij bedrijfscontinuïteit en noodherstel door snelle en efficiënte datareplicatie mogelijk te maken. Het wijdverbreide gebruik in AI-trainingsclusters benadrukt het belang ervan in de moderne computerwereld.
IV. InfiniBand: De gespecialiseerde High-Performance Fabric
InfiniBand is een toonaangevende high-performance interconnect, vanaf de basis ontworpen om ongeëvenaarde snelheid, minimale latentie en hoge betrouwbaarheid te bieden voor veeleisende computeromgevingen.
A. Architectonische principes
- Native RDMA: InfiniBand werd gebouwd met RDMA geïntegreerd in de volledige protocolstack, van de fysieke laag tot aan de top. Dit van de grond af opgebouwde ontwerp zorgt ervoor dat RDMA-operaties zeer efficiënt zijn, waarbij directe en beschermde datakanalen tussen knooppunten worden gecreëerd zonder CPU-tussenkomst.
- Switched fabric-topologie: InfiniBand maakt gebruik van een switched fabric-topologie voor directe point-to-point-verbindingen tussen apparaten. De architectuur omvat Host Channel Adapters (HCA's) op processors en Target Channel Adapters (TCA's) op randapparatuur, wat efficiënte communicatie mogelijk maakt.
- Credit-based flow control: Een kernkenmerk van InfiniBand is de credit-based flow control. Dit hardware-algoritme garandeert verliesvrije communicatie door ervoor te zorgen dat een zender alleen data verstuurt als de ontvanger voldoende bufferruimte (credits) heeft om deze te accepteren. Deze native betrouwbaarheid voorkomt pakketverlies en onderscheidt InfiniBand van technologieën die configuraties op een hogere laag nodig hebben om verliesvrij te zijn.
- Propriëtaire standaarden: InfiniBand volgt propriëtaire standaarden die zijn gedefinieerd door de InfiniBand Trade Association (IBTA), opgericht in 1999. Het ecosysteem wordt zwaar gedomineerd door NVIDIA (via de overname van Mellanox), een toonaangevende fabrikant van InfiniBand-adapters en -switches.
B. Prestatieprofiel
- Ultralage latentie: InfiniBand biedt consistent de laagste latentie. Adapterlatencies kunnen zo laag zijn als 0,5 microseconden, en de switch poort-naar-poort-latentie is ongeveer 100 nanoseconden – aanzienlijk lager dan de 230 nanoseconden van vergelijkbare Ethernet-switches. Op applicatieniveau kan InfiniBand latencies bereiken van slechts 2 microseconden, vergeleken met de 50 microseconden van TCP/IP.
- Hoge doorvoercapaciteit: InfiniBand ondersteunt extreem hoge datasnelheden. Moderne versies zoals HDR en NDR bieden tot 200 Gbps en 400 Gbps per lane. Geaggregeerde verbindingen kunnen een nog hogere doorvoer bereiken, tot 800 Gbps (NDR) en zelfs 1,6 Tbps (XDR).
- CPU-efficiëntie: Een belangrijke kracht van InfiniBand is het vermogen om ultralage latentie en extreem hoge bandbreedte te leveren met bijna geen CPU-gebruik. Deze offloading van netwerkverwerking is een cruciaal voordeel voor rekenintensieve workloads.
- Prestaties door ontwerp versus prestaties door configuratie: InfiniBand en RoCE verschillen fundamenteel in hun aanpak. InfiniBand is vanaf de grond af ontworpen voor RDMA, waarbij de fysieke en transportlagen zijn ontworpen voor betrouwbaarheid op hardwareniveau, inclusief een native credit-based algoritme voor verliesvrije communicatie. Daarentegen draait RoCE op standaard Ethernet en is het afhankelijk van configuratie van functies zoals Priority Flow Control (PFC) en Explicit Congestion Notification (ECN) om een verliesvrij netwerk te creëren. Dit betekent dat InfiniBand gegarandeerd hoge prestaties levert 'out-of-the-box', terwijl de prestaties van RoCE afhangen van de kwaliteit van de onderliggende Ethernet-configuratie.
C. Infrastructuur en beheer
- Toegewijde hardware: InfiniBand vereist gespecialiseerde hardware, waaronder toegewijde Host Channel Adapters (HCA's), switches, routers en propriëtaire kabels. Dit resulteert doorgaans in een hogere initiële investering in vergelijking met op Ethernet gebaseerde oplossingen.
- Gecentraliseerd beheer: InfiniBand-netwerken worden beheerd door een centrale Subnet Manager (SM), die doorstuurtabelen berekent en distribueert en configuraties zoals partities en Quality of Service (QoS) beheert. Deze gecentraliseerde aanpak kan het beheer in grote clusters na de initiële installatie vereenvoudigen.
- Gespecialiseerde expertise: Het implementeren en onderhouden van InfiniBand-netwerken vereist doorgaans gespecialiseerde kennis, wat de operationele kosten kan verhogen en een steilere leercurve voor IT-personeel kan creëren.
- Ecosysteem: Het InfiniBand-ecosysteem is volwassen, maar wordt gedomineerd door NVIDIA/Mellanox.
D. Belangrijkste toepassingen
InfiniBand is de industriestandaard voor High-Performance Computing (HPC)-omgevingen en is de snelst groeiende interconnect voor deze toepassingen. Het is de primaire technologie die wordt aanbevolen door de IBTA. De ultralage latentie en hoge bandbreedte zijn essentieel voor veeleisende workloads zoals grootschalige AI/ML-modeltraining, big data-analyse en enorme database-operaties. Het is ook cruciaal voor grote simulaties (bijv. weersvoorspellingen) en hoogfrequente financiële diensten, waar snelheid en data-integriteit van kritiek belang zijn. Vanaf juni 2022 gebruikte 62% van de Top100 supercomputers ter wereld InfiniBand.
V. iWARP: RDMA over Standaard TCP/IP
iWARP (Internet Wide Area RDMA Protocol) is een andere methode voor het implementeren van RDMA, die opvalt door het gebruik van de standaard TCP/IP-protocolsuite.
A. Architectonische principes
- RDMA over TCP/IP: iWARP is een protocol dat RDMA implementeert over standaard IP-netwerken. In tegenstelling tot RoCE, dat UDP gebruikt, is iWARP gebouwd bovenop betrouwbare transportprotocollen zoals TCP en SCTP.
- Belangrijkste componenten: De werking van iWARP is afhankelijk van verschillende componenten. Het Direct Data Placement Protocol (DDP) maakt zero-copy transmissie mogelijk door data rechtstreeks in het geheugen van een applicatie te plaatsen. Het Remote Direct Memory Access Protocol (RDMAP) levert de diensten voor RDMA lees- en schrijfbewerkingen. Een specifieke adaptatielaag, Marker PDU Aligned (MPA) framing, is nodig om DDP over TCP mogelijk te maken.
- Betrouwbaarheid: Een uniek kenmerk van iWARP is dat de betrouwbaarheid wordt geleverd door het onderliggende TCP-protocol. Dit verschilt van RoCE v2, dat UDP gebruikt en externe mechanismen zoals Data Center Bridging (DCB) nodig heeft voor betrouwbaarheid. Als gevolg hiervan ondersteunt iWARP alleen betrouwbare, verbonden communicatie.
B. Prestatieprofiel
- Vergelijkende latentie en doorvoer: Hoewel iWARP een lagere latentie heeft dan traditioneel TCP/IP, zijn de prestaties over het algemeen slechter dan die van RoCE. In 2011 was de laagste iWARP HCA-latentie 3 microseconden, terwijl RoCE HCA's 1,3 microseconden bereikten. Benchmarks tonen consequent aan dat RoCE berichten veel sneller aflevert dan iWARP, met een doorvoer die meer dan 2x hoger is bij 40GbE en 5x hoger bij 10GbE.
- CPU-offload: Net als andere RDMA-protocollen minimaliseert iWARP de CPU-belasting door directe geheugenoverdrachten mogelijk te maken. Het kan TCP Offload Engines (TOE) met RDMA-hardware gebruiken om zero-copy-resultaten te bereiken en de CPU-betrokkenheid verder te verminderen.
C. Infrastructuur en beheer
- Compatibiliteit met standaard Ethernet: Een groot voordeel van iWARP is het vermogen om over een standaard Ethernet-infrastructuur te draaien met minimale aanpassingen aan het bestaande netwerk. Dit stelt organisaties in staat om hun huidige investeringen te benutten.
- Hardwarevereisten: Ondanks de compatibiliteit met standaard Ethernet-switches, vereist iWARP nog steeds iWARP-compatibele netwerkkaarten op de eindpunten.
- Integratieaspecten: iWARP is geïntegreerd in grote besturingssystemen zoals Microsoft Windows Server en moderne Linux-kernels. Dit ondersteunt applicaties zoals SMB Direct, iSCSI Extensions for RDMA (iSER) en Network File System over RDMA (NFS over RDMA).
- Beheeruitdagingen: Het beheren van iWARP-verkeer kan moeilijk zijn. Het deelt de poortruimte van TCP, wat het beheer van datastromen bemoeilijkt en het lastig maakt om RDMA-verkeer te identificeren. Over het algemeen wordt iWARP als moeilijker te beheren beschouwd dan RoCE.
D. Marktrelevantie
- Beperkte adoptie: iWARP is een 'ongebruikelijke' of 'minder vaak gebruikte' RDMA-implementatie in vergelijking met InfiniBand en RoCE v2. De oplossingen hebben 'beperkt succes' gehad vanwege uitdagingen met implementatie en uitrol.
- De paradox van TCP-afhankelijkheid: De ontwerpkeuze van iWARP om RDMA over TCP te leggen, biedt ingebouwde betrouwbaarheid en compatibiliteit, maar verhindert paradoxaal genoeg dat het de kernvoordelen van RDMA volledig kan bereiken. De inherente overhead van het TCP-protocol, zelfs met hardware-offload, lijkt te voorkomen dat iWARP de ultralage latentie en hoge doorvoer van InfiniBand of RoCE haalt. Deze prestatieafweging heeft geleid tot de beperkte adoptie in de markt.
VI. Vergelijkende analyse: RoCE v2 vs. InfiniBand vs. iWARP vs. Standaard Ethernet
Een gedetailleerde vergelijking van prestatie-, infrastructuur- en operationele metrics is essentieel voor het selecteren van de juiste high-performance interconnect.
A. Prestatiebenchmarks
De prestaties van deze interconnects verschillen sterk, met name wat betreft latentie, bandbreedte en CPU-gebruik.
- Latentie:
- InfiniBand: Biedt de laagste latentie. De switch poort-naar-poort-latentie is ongeveer 100 nanoseconden, terwijl de adapterlatentie slechts 0,5 tot 1,3 microseconden bedraagt. De latentie op applicatielaag kan zo laag zijn als 2 microseconden.
- RoCE v2: Biedt een ultralage latentie. De latentie van een Ethernet-switch is ongeveer 230 nanoseconden, terwijl de HCA-latentie slechts 1,3 microseconden kan zijn. De latentie op applicatielaag ligt doorgaans rond de 5 microseconden.
- iWARP: Heeft een hogere latentie dan RoCE, met een HCA-latentie van ongeveer 3 microseconden (gegevens uit 2011). Het presteert consequent slechter dan RoCE.
- Standaard TCP/IP: Heeft de hoogste latentie, met een eenrichtingslatentie van 10 tot 55 milliseconden. De latentie op applicatielaag is doorgaans ongeveer 50 microseconden.
- Bandbreedte:
- InfiniBand: Ondersteunt zeer hoge bandbreedte. Moderne versies zoals NDR bieden tot 400 Gbps per poort, en XDR bereikt tot 800 Gbps. Toekomstige GDR zal naar verwachting 1,6 Tbps bereiken.
- RoCE v2: In staat tot hoge bandbreedte, met ondersteuning tot 400 Gbps per poort.
- iWARP: Heeft over het algemeen een lagere doorvoer dan RoCE.
- Standaard TCP/IP: De doorvoer wordt vaak beperkt door protocoloverhead en hertransmissies, waardoor het moeilijk is om verbindingen met hoge bandbreedte efficiënt te gebruiken.
- CPU-offload:
- InfiniBand, RoCE v2, iWARP: Alle drie de RDMA-technologieën nemen aanzienlijk CPU-werk over door het besturingssysteem te omzeilen, waardoor CPU-bronnen vrijkomen voor andere taken.
- Standaard TCP/IP: Veroorzaakt een hoge CPU-belasting omdat de kernel zwaar betrokken is bij de dataverwerking.
- Verliesvrij mechanisme:
- InfiniBand: Beschikt over native, hardwarematige credit-based flow control, die verliesvrije communicatie garandeert.
- RoCE v2: Is afhankelijk van een verliesvrije Ethernet-configuratie, met behulp van Data Center Bridging (DCB)-functies zoals PFC en ECN. Het heeft ook een end-to-end betrouwbaar leveringsmechanisme met hardwarematige hertransmissies.
- iWARP: Maakt gebruik van het ingebouwde betrouwbare transport van TCP voor data-integriteit.
- Standaard TCP/IP: Gebruikt een 'best-effort' leveringsmodel en vertrouwt op hertransmissies op hogere lagen om betrouwbaarheid te garanderen, wat latentie toevoegt.
De volgende tabel vat de prestatiekenmerken samen:
| Kenmerk | InfiniBand | RoCE v2 | iWARP | Standaard Ethernet/TCP/IP |
|---|---|---|---|---|
| Kerntechnologie | Native RDMA | RDMA over Ethernet (UDP/IP) | RDMA over Ethernet (TCP/IP) | Traditioneel gelaagd protocol |
| Typische applicatielatentie (µs) | 2 | 5 | >3 (2011 HCA) | 50 |
| Switch poort-naar-poort-latentie (ns) | 100 | 230 | N.v.t. (afhankelijk van Ethernet) | Doorgaans hoger, variabel |
| Max. bandbreedte (Gbps per poort/link) | 400 (NDR), 800 (XDR), 1,6T (GDR) | 400 | Over het algemeen lager dan RoCE | 400+ (maar beperkt door protocoloverhead) |
| CPU-overhead | Bijna nul | Zeer laag | Laag | Hoog |
| Verliesvrij mechanisme | Native Credit-Based Flow Control | Vereist verliesvrij Ethernet (PFC, ECN) | Betrouwbaar transport van TCP | Best-Effort, afhankelijk van hertransmissies |
| Routeerbaarheid (L2/L3) | L3 (via Subnet Manager) | L3 (Routeerbaar RoCE) | L3 | L3 (Standaard IP-routing) |
B. Infrastructuur en ecosysteem
- Hardwareafhankelijkheden:
- InfiniBand: Vereist een volledige set gespecialiseerde hardware, waaronder InfiniBand HCA's, switches en propriëtaire kabels.
- RoCE v2: Vereist RoCE-compatibele HCA's maar werkt over standaard Ethernet-switches en -kabels, wat integratie met bestaande netwerken mogelijk maakt.
- iWARP: Vereist iWARP-compatibele netwerkkaarten maar kan standaard Ethernet-switches gebruiken.
- Standaard Ethernet: Gebruikt wijd beschikbare, standaard Ethernet NIC's en switches.
- Vendor lock-in:
- InfiniBand: Het ecosysteem is beperkt en wordt gedomineerd door Mellanox (NVIDIA), wat zorgen over vendor lock-in kan oproepen.
- RoCE v2: Profiteert van een groot en competitief Ethernet-ecosysteem met meerdere leveranciers. Sommige bieden 'Universal RDMA' NIC's die zowel RoCE als iWARP ondersteunen, wat de lock-in vermindert.
- iWARP: Profiteert ook van het brede Ethernet-ecosysteem, met ondersteuning van leveranciers zoals Intel en Chelsio.
- Interoperabiliteit:
- InfiniBand: Als propriëtaire standaard moeten alle componenten voldoen aan de IBTA-specificaties om te garanderen dat ze samenwerken.
- RoCE v2: De basis op standaard Ethernet zorgt voor bredere interoperabiliteit en eenvoudigere integratie met bestaande netwerken.
- iWARP: Gebaseerd op standaard IETF RFC's voor TCP/IP, wat een hoge compatibiliteit binnen standaard IP-netwerken garandeert.
C. Kosteneffectiviteit
- Initiële investering:
- InfiniBand: Vereist doorgaans een hogere initiële investering vanwege gespecialiseerde hardware en licenties. Voor grote AI-clusters kunnen InfiniBand-switches aanzienlijk duurder zijn dan RoCE-switches.
- RoCE v2: Vaak een kosteneffectievere optie omdat het kan integreren met bestaand Ethernet, waardoor de kosten voor nieuwe hardware worden verlaagd. De besparingen op switches voor grote AI-clusters kunnen aanzienlijk zijn (49% tot 70% in vergelijking met InfiniBand).
- iWARP: Gebruikt standaard Ethernet-switches maar vereist gespecialiseerde adapters, wat nog steeds een aanzienlijke kostenpost kan zijn.
- Standaard Ethernet: Over het algemeen de goedkoopste optie vanwege de standaard hardware.
- Totale eigendomskosten (TCO):
- InfiniBand: Heeft doorgaans een hogere TCO vanwege gespecialiseerde hardware, onderhoud en de noodzaak van personeelstraining voor een propriëtaire technologie.
- RoCE v2: Kan een lagere TCO hebben, maar dit is voorwaardelijk. De complexiteit van het configureren en onderhouden van een verliesvrije Ethernet-fabric kan de operationele kosten aanzienlijk verhogen. Hoewel de initiële hardwarekosten lager kunnen zijn, kunnen de gespecialiseerde kennis en inspanning die nodig zijn voor ontwerp, probleemoplossing en onderhoud deze besparingen tenietdoen. Daarom hangt 'kosteneffectiviteit' af van zowel de hardwareprijs als de expertise en de beheerslast van de organisatie.
- iWARP: Integratie- en beheeruitdagingen kunnen de totale TCO beïnvloeden.
De volgende tabel geeft een vergelijkend overzicht van infrastructuur- en kostenoverwegingen:
| Kenmerk | InfiniBand | RoCE v2 | iWARP | Standaard Ethernet/TCP/IP |
|---|---|---|---|---|
| Vereiste netwerkhardware | Toegewijde IB NIC's, IB Switches, IB Kabels | RoCE-compatibele NIC's, Standaard Ethernet Switches/Kabels | iWARP-compatibele NIC's, Standaard Ethernet Switches/Kabels | Standaard Ethernet NIC's, Ethernet Switches/Kabels |
| Netwerkcompatibiliteit | Propriëtair (IBTA Standaard) | Standaard Ethernet (IEEE) | Standaard Ethernet (IETF RFC's) | Standaard Ethernet (IEEE) |
| Beheercomplexiteit | Moeilijk (Gespecialiseerde SM) | Moeilijk (Verliesvrije Ethernet-config.) | Moeilijker dan RoCE | Eenvoudig |
| Initiële hardwarekosten (relatief) | Hoog | Gemiddeld (maakt gebruik van bestaand) | Gemiddeld (Gespecialiseerde NIC's) | Laag |
| Totale eigendomskosten (relatief) | Hoger | Lager (voorwaardelijk op beheer) | Variabel (integratie-uitdagingen) | Laagst |
| Ecosysteem van leveranciers | Beperkt (NVIDIA/Mellanox dominant) | Breed (Meerdere Ethernet-leveranciers) | Breed (Meerdere Ethernet-leveranciers) | Zeer breed |
D. Schaalbaarheid en flexibiliteit
- Routeringsmogelijkheden:
- InfiniBand: Gebruikt een switched fabric met routering die centraal wordt beheerd door een Subnet Manager (SM). Het is zeer schaalbaar en ondersteunt clusters met meer dan 100.000 knooppunten.
- RoCE v2: De inkapseling in UDP/IP maakt het routeerbaar over Layer 3 IP-netwerken, waardoor het schaalbaar is over grote netwerken en cloudomgevingen. Het ondersteunt ook ECMP voor efficiënte load balancing.
- iWARP: Is routeerbaar over IP-netwerken.
- Standaard Ethernet: Zeer schaalbaar en flexibel, maar kan geavanceerde configuraties zoals spine-leaf-architecturen vereisen voor efficiëntie op HPC-niveau.
- Netwerktopologieën:
- InfiniBand: Geoptimaliseerd voor HPC/AI-clusters en ondersteunt high-performance topologieën zoals Fat Tree, Dragonfly+ en multidimensionale Torus.
- RoCE v2: De op IP gebaseerde routering maakt het aanpasbaar aan vrijwel elke netwerktopologie.
- Standaard Ethernet: Ondersteunt een breed scala aan topologieën, waaronder ster en mesh.
E. Betrouwbaarheid en congestiebeheer
- Betrouwbaarheid:
- InfiniBand: Biedt native, hardwarematige betrouwbaarheid met zijn credit-based flow control, wat verliesvrije communicatie garandeert.
- RoCE v2: Is afhankelijk van een verliesvrije Ethernet-configuratie met PFC en ETS. Het bevat ook een end-to-end betrouwbaar leveringsmechanisme met hardwarematige pakket hertransmissie.
- iWARP: Profiteert van de inherente betrouwbaarheid van TCP, die foutcorrectie en hertransmissies biedt.
- Standaard TCP/IP: Richt zich op betrouwbaarheid door hertransmissies, wat aanzienlijke latentie kan toevoegen en de doorvoer kan verminderen.
- Congestiebeheer:
- InfiniBand: Definieert zijn eigen mechanismen voor congestiebeheer op basis van FECN/BECN-markering.
- RoCE v2: Implementeert een protocol voor congestiebeheer met IP ECN-bits en Congestion Notification Packets (CNP's). Industriepraktijken zoals DCQCN worden ook gebruikt.
- iWARP: Vertrouwt op de gevestigde algoritmen voor congestiebeheer van TCP.
F. Geschiktheid voor applicaties
- InfiniBand: De ideale keuze voor omgevingen die de hoogste datadoorvoer en de laagste latentie vereisen. Dit omvat wetenschappelijk onderzoek, financiële modellering, grootschalige HPC-clusters en de meest veeleisende AI/ML-trainingsworkloads.
- RoCE v2: Geliefd bij bedrijven die hun bestaande Ethernet-infrastructuur willen gebruiken en toch hoge prestaties nodig hebben. Het is zeer geschikt voor opslagnetwerken, real-time analyse en clouddiensten en biedt een balans tussen prestaties en kosten.
- iWARP: Kan worden overwogen voor nichetoepassingen waar de bestaande TCP/IP-infrastructuur een strikte vereiste is en ultralage latentie niet de hoogste prioriteit heeft. Het is geschikt voor applicaties zoals NVMeoF, iSER, SMB Direct en NFS over RDMA, of als een goedkope optie voor testomgevingen.
- Standaard Ethernet/TCP/IP: Blijft de beste keuze voor algemeen netwerkgebruik, zoals bedrijfs-LAN's en cloudinfrastructuur waar extreme HPC/AI-prestaties niet het hoofddoel zijn.
- Het trilemma van prestaties, kosten en complexiteit: Deze analyse onthult een fundamentele afweging bij het kiezen van een interconnect: een trilemma tussen prestaties, kosten en complexiteit. InfiniBand biedt topprestaties en native betrouwbaarheid, maar tegen hogere kosten. RoCE v2 levert bijna-InfiniBand-prestaties op Ethernet, wat mogelijk de hardwarekosten verlaagt maar aanzienlijke configuratiecomplexiteit toevoegt. iWARP biedt RDMA over TCP maar met lagere prestaties. Standaard Ethernet is kosteneffectief maar mist de prestaties voor veeleisende workloads. Er is geen enkele 'beste' oplossing; de juiste keuze vereist het balanceren van deze drie factoren op basis van specifieke behoeften en capaciteiten.
De volgende tabel geeft een overzicht van de geschiktheid van elke technologie voor applicaties:
| Technologie | Primaire gebruiksscenario's | Meest geschikt voor | Minder geschikt voor |
|---|---|---|---|
| InfiniBand | HPC, AI/ML-training, Big Data-analyse, Financiële diensten (arbitrage) | Omgevingen die de absoluut laagste latentie, hoogste bandbreedte en native verliesvrije garanties eisen | Kostenbewuste algemene bedrijfsnetwerken, omgevingen zonder gespecialiseerde IT-expertise |
| RoCE v2 | Datacenters, Clouddiensten, Opslagnetwerken, Real-time analyse, AI/ML-inferentie | Organisaties die bestaande Ethernet-infrastructuur benutten voor hoge prestaties; balans tussen kosten en prestaties | Omgevingen waar native verliesvrije garanties niet-onderhandelbaar zijn zonder uitgebreide configuratie-expertise |
| iWARP | NVMeoF, iSER, SMB Direct, NFS over RDMA, Test/Dev-omgevingen | Specifieke applicaties die RDMA over bestaand TCP/IP vereisen, waar absolute piekprestaties niet cruciaal zijn | Grootschalige HPC/AI-clusters, latentiegevoelige real-time applicaties |
| Standaard Ethernet/TCP/IP | Algemeen bedrijfsnetwerk, LAN's, Internetconnectiviteit, Cloudinfrastructuur | Alomtegenwoordig, kosteneffectief en flexibel algemeen netwerkgebruik | High-performance computing, AI/ML-training en andere latentiegevoelige, CPU-intensieve workloads |
VII. Opkomende High-Performance Interconnects en Toekomstige Trends
Het landschap van high-performance networking verandert voortdurend, gedreven door data-intensieve workloads en de behoefte aan grotere efficiëntie. Naast gevestigde RDMA-technologieën vormen nieuwe interconnects en trends de toekomst van datacenters.
A. Compute Express Link (CXL)
CXL is een moderne interconnect gebouwd op de fysieke laag van PCIe, ontworpen voor algemene computersystemen. Het hoofddoel is om snelle, naadloze communicatie mogelijk te maken tussen CPU's en versnellers zoals GPU's en FPGA's.
Belangrijke kenmerken van CXL zijn snelle dataoverdracht, brede compatibiliteit en efficiënt geheugendelen via Cache Coherency. Het ondersteunt drie apparaattypen (voor versnellers, cache-coherente apparaten en geheugenuitbreiders) en flexibele topologieën. CXL/PCIe Gen5 biedt een piekdoorvoer van 512 Gbps met een latentie van ongeveer 500 nanoseconden. Hoewel InfiniBand een lagere latentie heeft (ongeveer 100 nanoseconden), is CXL superieur voor geheugentoegang met lage latentie waar cache-coherentie cruciaal is.
Een belangrijke ontwikkeling was de fusie van de Gen-Z en CXL Consortia in 2022, wat CXL positioneert als de enige industriestandaard voor deze klasse van geheugengerichte interconnects.
CXL vertegenwoordigt een verschuiving van traditionele knooppunt-naar-knooppunt-netwerken (zoals RoCE en InfiniBand) naar geheugencoherentie en disaggregatie van bronnen. Dit betekent dat CXL voor bepaalde workloads de primaire interconnect kan worden, als aanvulling op of ter vermindering van de behoefte aan traditionele netwerk-fabrics.
B. NVLink
NVLink is NVIDIA's propriëtaire interconnect met hoge bandbreedte en lage latentie, ontworpen voor directe GPU-naar-GPU en GPU-naar-CPU communicatie binnen zijn versnelde computerplatforms.
NVLink is een sleutelonderdeel van NVIDIA's oplossingen voor AI en HPC, zoals de GB200- en GB300-architecturen. Het is cruciaal voor het schalen van AI-modeltraining door extreem snelle dataoverdrachten tussen GPU's te bieden.
NVLink toont een trend naar verticale integratie en gespecialiseerde prestaties. Het propriëtaire karakter staat in contrast met open standaarden zoals RoCE of InfiniBand. Dit ontwerp maximaliseert de prestaties binnen de hardwarestack van één enkele leverancier. Terwijl InfiniBand en RoCE de algemene netwerkverbindingen tussen knooppunten verzorgen, optimaliseert NVLink de communicatie binnen en tussen GPU-systemen, waardoor een gelaagde interconnect-architectuur ontstaat waarin verschillende technologieën verschillende behoeften vervullen.
C. Toekomstige Ethernet-snelheden
Ethernet is geëvolueerd van 10 Mbps naar 400 Gbps, en de ontwikkeling gaat door met 800GbE- en 1.6TbE-standaarden in het vooruitzicht. Deze hogere snelheden zullen essentieel zijn voor de volgende generatie toepassingen zoals kwantumcomputing, geavanceerde AI en immersieve technologieën.
De continue toename van Ethernet-snelheden komt RoCE rechtstreeks ten goede. Omdat RoCE op Ethernet is gebouwd, profiteert het automatisch van deze vooruitgang, wat helpt om concurrerend te blijven met InfiniBand. De groei van clouddiensten stimuleert nu al de implementatie van 200GbE en 400GbE, met 800GbE en 1.6TbE als volgende stap.
De aanhoudende relevantie van Ethernet en RoCE zijn nauw met elkaar verbonden. Naarmate de Ethernet-snelheden toenemen, wordt RoCE een nog sterkere concurrent voor high-performance datacenters, vooral voor organisaties die hun bestaande Ethernet-investeringen willen benutten en propriëtaire ecosystemen willen vermijden.
D. Gedisaggregeerd computergebruik en fotonica
- Gedisaggregeerd computergebruik: Deze nieuwe aanpak heeft tot doel de efficiëntie van datacenters te verbeteren door bronnen zoals rekenkracht, opslag en geheugen los te koppelen van traditionele servers. Deze bronnen worden vervolgens opnieuw samengesteld in flexibele pools die met geavanceerde netwerken zijn verbonden. Een belangrijk gevolg is dat communicatie die ooit binnen een server plaatsvond, nu het netwerk oversteekt, wat de belasting dramatisch verhoogt en een ultralage latentie cruciaal maakt. Deze trend versterkt de behoefte aan high-performance interconnects zoals RoCE en InfiniBand en stimuleert de ontwikkeling van nieuwe, zoals CXL.
- Fotonica in datacenter-netwerken: Siliciumfotonica integreert optische componenten op siliciumchips, wat snelle, energiezuinige optische interconnects mogelijk maakt. Deze technologie biedt veel hogere dataoverdrachtssnelheden (meer dan 100 Gbps), lagere latentie en betere energie-efficiëntie dan traditioneel koper. Het wordt essentieel om te voldoen aan de groeiende verkeersvraag in datacenters en om de volgende generatie high-speed Ethernet mogelijk te maken.
De relatie tussen deze trends is symbiotisch. Gedisaggregeerde architecturen vereisen geavanceerde netwerken, die worden geleverd door interconnects als RoCE, InfiniBand en CXL. Op hun beurt zal het bereiken van de benodigde snelheden voor deze interconnects, vooral voor toekomstige 800GbE- en 1.6TbE-standaarden, afhankelijk zijn van technologieën zoals siliciumfotonica.
VIII. Aanbevelingen en conclusie
Het kiezen van een high-performance interconnect is een cruciale strategische beslissing die moet aansluiten bij de specifieke behoeften, het budget, de infrastructuur en de langetermijnvisie van een organisatie.
- Voor maximale pure prestaties en missiekritieke HPC/AI: InfiniBand is de duidelijke gouden standaard. De native RDMA, credit-based flow control en het speciaal ontworpen ontwerp leveren de laagste latentie en hoogste doorvoer met gegarandeerde verliesvrije prestaties. Organisaties met het budget en de expertise zouden voor InfiniBand moeten kiezen voor grootschalige clusters waar elke microseconde telt.
- Voor hoge prestaties met kosteneffectiviteit en Ethernet-integratie: RoCE v2 is een sterk en steeds populairder alternatief. Het biedt aanzienlijke prestatieverbeteringen ten opzichte van TCP/IP en kan de prestaties van InfiniBand benaderen door gebruik te maken van de bestaande Ethernet-infrastructuur. Het is ideaal voor organisaties die hun datacenters upgraden zonder een volledige revisie. Deze keuze vereist echter een toewijding aan het zorgvuldig configureren en beheren van een verliesvrije Ethernet-fabric.
- Voor nichetoepassingen of legacy RDMA over TCP-omgevingen: iWARP kan in specifieke gevallen geschikt zijn, vooral waar het gebruik van bestaande TCP/IP-infrastructuur een must is en piekprestaties niet het primaire doel zijn. De lagere prestaties en hogere beheercomplexiteit beperken echter het gebruik ervan in moderne high-performance implementaties.
- Voor algemeen netwerkgebruik: Standaard Ethernet/TCP/IP blijft de meest gangbare en kosteneffectieve keuze voor omgevingen zonder extreme prestatie-eisen. Het gebruiksgemak en de standaard hardware maken het perfect voor algemene bedrijfsnetwerken, LAN's en standaard cloudinfrastructuur.
- Opkomende technologieën overwegen voor toekomstbestendigheid: Organisaties moeten de ontwikkeling van CXL in de gaten houden voor geheugengerichte en gedisaggregeerde architecturen, omdat het traditionele netwerk-fabrics aanvult door de pooling van bronnen te optimaliseren. Evenzo is NVLink cruciaal voor het optimaliseren van de communicatie binnen NVIDIA's GPU-intensieve systemen. Deze technologieën tonen een diversificatie van interconnects voor verschillende lagen van de computerhiërarchie. Daarnaast zullen de ontwikkeling van 800GbE en 1.6TbE Ethernet, samen met de vooruitgang in fotonica, RoCE een nog krachtigere optie blijven maken.
Concluderend is high-performance networking complex, gedreven door de eisen van AI, HPC en de verschuiving naar gedisaggregeerd computergebruik. Terwijl InfiniBand leidt in absolute prestaties voor gespecialiseerde omgevingen, biedt RoCE v2 een krachtig en flexibel alternatief dat de voordelen van RDMA overbrugt met de alomtegenwoordigheid van Ethernet. De opkomst van CXL en NVLink duidt op een strategische diversificatie van interconnects, waarbij verschillende communicatielagen worden geoptimaliseerd. De optimale oplossing zal altijd een strategische balans zijn tussen prestatie-eisen, kosten, bestaande infrastructuur en een toekomstgerichte visie.




