I. Riepilogo esecutivo
I data center moderni devono supportare carichi di lavoro impegnativi come il calcolo ad alte prestazioni (HPC), l'intelligenza artificiale/machine learning (AI/ML) e l'analisi dei Big Data. Queste applicazioni richiedono latenza ultra-bassa, larghezza di banda elevata e un utilizzo minimo della CPU. I protocolli di rete tradizionali come TCP/IP non possono soddisfare queste esigenze a causa del loro elevato overhead e della loro latenza.
L'accesso diretto alla memoria remota (RDMA) è la tecnologia chiave che abilita le interconnessioni ad alte prestazioni. RDMA consente ai computer in rete di trasferire dati direttamente tra le rispettive memorie senza coinvolgere i sistemi operativi o le CPU (da memoria a memoria). Questo processo riduce drasticamente la latenza e il carico sulla CPU.
- InfiniBand è un fabric proprietario appositamente progettato per le massime prestazioni possibili e un funzionamento nativo senza perdita di dati (lossless).
- RoCE v2 (RDMA over Converged Ethernet) applica i vantaggi di RDMA su reti Ethernet standard, offrendo un'opzione instradabile e più economica, ma richiede configurazioni specifiche per garantire l'assenza di perdite.
- iWARP è un'altra soluzione RDMA su Ethernet basata su TCP, ma è generalmente meno comune e offre prestazioni inferiori rispetto a RoCE v2.
La scelta della giusta interconnessione è una decisione strategica che dipende dalle esigenze di prestazione, dal budget, dall'infrastruttura esistente e dagli obiettivi di scalabilità. Questo rapporto analizza queste tecnologie, le confronta con lo standard Ethernet/TCP/IP ed esplora nuove alternative come CXL e NVLink per guidare questa decisione critica.
II. Introduzione al networking ad alte prestazioni e a RDMA
Il mondo digitale di oggi è caratterizzato da una crescita esponenziale delle applicazioni ad alta intensità di dati come il calcolo ad alte prestazioni (HPC), l'intelligenza artificiale/machine learning (AI/ML) e l'analisi dei Big Data. Questi carichi di lavoro devono spostare enormi quantità di dati in modo rapido ed efficiente tra i nodi di calcolo e lo storage. Ad esempio, le applicazioni di intelligenza artificiale sono molto sensibili all'integrità dei dati e richiedono reti senza perdita di dati, dove un singolo messaggio perso potrebbe rovinare un intero ciclo di addestramento. Un traffico ad alta larghezza di banda è essenziale anche per queste applicazioni per elaborare i dati in modo efficiente.
Limiti del tradizionale protocollo Ethernet TCP/IP per applicazioni ad alte prestazioni
Sebbene affidabile per il networking generico, il tradizionale protocollo Ethernet TCP/IP presenta importanti limiti per le applicazioni ad alte prestazioni:
- Latenza elevata e overhead della CPU: Il design di TCP/IP invia i dati attraverso più livelli software nel kernel del sistema operativo, richiedendo un notevole coinvolgimento della CPU. Questo processo aggiunge una latenza considerevole (tipicamente decine di microsecondi) e impone un carico pesante sulla CPU. Per le applicazioni sensibili alla latenza, questo diventa un collo di bottiglia importante, poiché la CPU impiega il suo tempo a gestire il traffico di rete invece di eseguire l'applicazione. Questa "tassa sulla CPU" derivante dal cambio di contesto e dalla copia dei dati è una delle ragioni principali per l'adozione delle tecnologie RDMA, che scaricano l'elaborazione di rete e liberano la CPU per le attività applicative.
- Limitazioni del throughput: Diversi fattori limitano il throughput effettivo di TCP, tra cui la dimensione della finestra di trasmissione, la dimensione del segmento e la perdita di pacchetti. La dimensione standard della finestra TCP (spesso limitata a 65.535 byte) può impedire il pieno utilizzo dei collegamenti ad alta larghezza di banda, specialmente su reti con latenza più elevata. Inoltre, il meccanismo di affidabilità principale di TCP, la ritrasmissione dei pacchetti, introduce ritardi e utilizza larghezza di banda aggiuntiva, danneggiando le prestazioni in reti congestionate o con perdite.
- Sfide di scalabilità: Sebbene TCP/IP scali bene per reti di grandi dimensioni, il suo design dà priorità all'affidabilità generale rispetto alle prestazioni grezze. Questo lo rende meno efficace per scenari che richiedono un throughput estremo e una latenza minima, come i cluster HPC su larga scala o l'inferenza AI in tempo reale.
Fondamenti dell'accesso diretto alla memoria remota (RDMA) e i suoi vantaggi principali
L'accesso diretto alla memoria remota (RDMA) è stato sviluppato per superare i limiti di TCP/IP in contesti ad alte prestazioni. I suoi principali vantaggi derivano dal bypassare la CPU e il sistema operativo durante i trasferimenti di dati:
- Accesso diretto alla memoria (Zero-Copy): RDMA trasferisce i dati direttamente dalla memoria di un computer a quella di un altro senza coinvolgere la CPU o il sistema operativo di entrambi i sistemi. Questo approccio "zero-copy" elimina i buffer di dati intermedi e i cambi di contesto, che sono le principali fonti di overhead nel networking tradizionale.
- Latenza e carico sulla CPU ridotti: Bypassando la CPU e il sistema operativo, RDMA riduce drasticamente la latenza di comunicazione e libera cicli della CPU. Ciò porta direttamente a calcoli più veloci e a una migliore elaborazione dei dati in tempo reale. Ad esempio, la latenza dell'applicazione può scendere da circa 50 microsecondi con TCP/IP a soli 2-5 microsecondi con RDMA.
- Maggiore utilizzo della larghezza di banda: Il percorso dati efficiente e l'overhead ridotto di RDMA consentono alle applicazioni di utilizzare meglio la larghezza di banda di rete disponibile, con un conseguente throughput effettivo più elevato.
- Implementazioni chiave: Le principali tecnologie RDMA utilizzate oggi sono InfiniBand, RoCE (versioni 1 e 2) e iWARP.
III. RoCE v2: RDMA su Ethernet convergente
RoCE v2 rappresenta un importante passo avanti nel networking ad alte prestazioni, estendendo i vantaggi di RDMA all'ecosistema Ethernet ampiamente utilizzato.
A. Principi architetturali
- Evoluzione da RoCE v1: RoCE v1 era un protocollo di Livello 2 (Ethertype 0x8915), che lo confinava a un singolo dominio di broadcast Ethernet e ne limitava la scalabilità. RoCE v2 risolve questo problema operando a livello di rete. Incapsula il traffico RDMA all'interno di pacchetti UDP/IP (utilizzando la porta di destinazione UDP 4791), rendendolo instradabile attraverso le reti IP di Livello 3. Questa instradabilità è un miglioramento fondamentale, che consente a RoCE v2 di essere utilizzato in data center su larga scala e in ambienti cloud.
- Integrazione di RDMA su Ethernet: RoCE fornisce un metodo per eseguire RDMA su una rete Ethernet standard. Sostituisce efficacemente il livello di rete InfiniBand con intestazioni IP e UDP, mantenendo il livello di trasporto InfiniBand e il protocollo RDMA. Questo design consente a RoCE di sfruttare l'infrastruttura Ethernet esistente.
- Formato del pacchetto: Un pacchetto RoCE v2 include un'intestazione IP e un'intestazione UDP, che incapsulano il protocollo di trasporto RDMA. Sebbene UDP non garantisca l'ordine dei pacchetti, lo standard RoCE v2 richiede che i pacchetti con la stessa porta di origine e lo stesso indirizzo di destinazione non vengano riordinati.
- Il compromesso del "meglio di entrambi i mondi": Il design di RoCE v2 è un compromesso strategico, che mira a fornire le alte prestazioni di RDMA sulla piattaforma Ethernet flessibile, economica e onnipresente. Sebbene questo approccio offra un'ampia compatibilità, crea una sfida chiave: garantire le prestazioni senza perdita di dati di cui RDMA ha bisogno su una rete Ethernet, che è intrinsecamente soggetta a perdite.
B. Profilo prestazionale
- Latenza: Gli adattatori di canale host (HCA) RoCE possono raggiungere latenze molto basse, fino a 1,3 microsecondi. A livello di applicazione, RoCE riduce la latenza a circa 5 microsecondi, un enorme miglioramento rispetto ai 50 microsecondi tipici di TCP/IP. Sebbene InfiniBand offra una latenza nativa leggermente inferiore, le prestazioni di RoCE sono eccellenti per le applicazioni in tempo reale.
- Larghezza di banda: RoCE v2 supporta un'elevata larghezza di banda, con velocità fino a 400 Gbps per porta.
- Offload della CPU: Come altri protocolli RDMA, RoCE bypassa la CPU per i trasferimenti di dati. Questo offload libera preziose risorse della CPU per attività ad alta intensità di calcolo invece che per l'elaborazione di rete.
- Prestazioni senza perdita di dati: Per eguagliare le prestazioni di InfiniBand, RoCE dipende da una rete Ethernet senza perdita di dati. Ciò si ottiene tipicamente implementando le funzionalità di Data Center Bridging (DCB), in particolare il Priority Flow Control (PFC) e l'Explicit Congestion Notification (ECN).
C. Infrastruttura e gestione
- Requisiti hardware/software: RoCE funziona con hardware Ethernet standard come switch e cavi, consentendo alle organizzazioni di utilizzare la loro infrastruttura esistente. Tuttavia, richiede adattatori di canale host (HCA) compatibili con RoCE negli endpoint. Il supporto software è maturo, con implementazioni in Mellanox OFED 2.3+ e integrato nel kernel Linux v4.5+.
- Configurazione di rete senza perdita di dati: Sebbene RoCE utilizzi Ethernet standard, la creazione di una rete DCB senza perdita di dati può essere più complessa rispetto alla configurazione di una rete InfiniBand. Ogni componente, dagli endpoint agli switch, deve essere attentamente configurato. Ciò include l'impostazione del Priority Flow Control (PFC), dell'Enhanced Transmission Selection (ETS) e dei meccanismi di notifica della congestione. Per funzionare su reti di Livello 3, queste caratteristiche di assenza di perdite devono essere mantenute attraverso i router, spesso mappando le impostazioni di priorità di Livello 2 alle impostazioni QoS DSCP di Livello 3.
- Considerazioni sulla gestione: RoCE può essere gestito con strumenti Ethernet standard. Tuttavia, garantire prestazioni costanti senza perdita di dati e gestire la congestione in implementazioni RoCE v2 su larga scala può essere impegnativo e richiede competenze specializzate.
- Il costo nascosto dell'"efficienza economica": RoCE è spesso definito "economico" perché può utilizzare l'infrastruttura Ethernet esistente, ma questa è una semplificazione eccessiva. Raggiungere prestazioni simili a InfiniBand richiede una rete Ethernet senza perdita di dati perfettamente configurata. La complessità della configurazione delle funzionalità di Data Center Bridging (DCB) come PFC ed ECN può essere molto più elevata rispetto alla configurazione di una rete InfiniBand. Questa complessità comporta costi operativi più elevati per la progettazione, la risoluzione dei problemi e la gestione della rete e può richiedere switch Ethernet più costosi. Di conseguenza, i risparmi hardware iniziali di RoCE potrebbero essere annullati da questi costi operativi più elevati. Un'analisi approfondita del costo totale di proprietà (TCO) è essenziale per un confronto accurato.
D. Applicazioni chiave
RoCE v2 è una soluzione eccellente per molte applicazioni di data center e aziendali. È particolarmente adatto per ambienti che necessitano di latenza ultra-bassa e throughput elevato, come i carichi di lavoro di intelligenza artificiale, il trading ad alta frequenza e l'analisi in tempo reale. Migliora anche le prestazioni per le applicazioni che si basano pesantemente su database o I/O di file. Inoltre, RoCE v2 aiuta con la continuità operativa e il ripristino di emergenza consentendo una replica dei dati rapida ed efficiente. Il suo uso diffuso nei cluster di addestramento AI evidenzia la sua importanza nell'informatica moderna.
IV. InfiniBand: il fabric specializzato ad alte prestazioni
InfiniBand è un'interconnessione ad alte prestazioni di altissimo livello, progettata fin dall'inizio per fornire velocità senza pari, latenza minima e alta affidabilità per ambienti di calcolo esigenti.
A. Principi architetturali
- RDMA nativo: InfiniBand è stato costruito con RDMA integrato in tutto il suo stack di protocolli, dal livello fisico in su. Questo design dal basso verso l'alto garantisce che le operazioni RDMA siano altamente efficienti, creando canali dati diretti e protetti tra i nodi senza il coinvolgimento della CPU.
- Topologia a fabric commutato: InfiniBand utilizza una topologia a fabric commutato per connessioni punto-punto dirette tra i dispositivi. L'architettura include adattatori di canale host (HCA) sui processori e adattatori di canale target (TCA) sulle periferiche, consentendo una comunicazione efficiente.
- Controllo di flusso basato su crediti: Una caratteristica fondamentale di InfiniBand è il suo controllo di flusso basato su crediti. Questo algoritmo a livello hardware garantisce una comunicazione senza perdita di dati, assicurando che un mittente trasmetta dati solo se il ricevitore ha abbastanza spazio nel buffer (crediti) per accettarli. Questa affidabilità nativa previene la perdita di pacchetti e distingue InfiniBand dalle tecnologie che necessitano di configurazioni di livello superiore per essere senza perdite.
- Standard proprietari: InfiniBand segue standard proprietari definiti dalla InfiniBand Trade Association (IBTA), fondata nel 1999. L'ecosistema è fortemente dominato da NVIDIA (attraverso l'acquisizione di Mellanox), uno dei principali produttori di adattatori e switch InfiniBand.
B. Profilo prestazionale
- Latenza ultra-bassa: InfiniBand offre costantemente la latenza più bassa. Le latenze degli adattatori possono essere di soli 0,5 microsecondi e la latenza da porta a porta dello switch è di circa 100 nanosecondi, significativamente inferiore ai 230 nanosecondi di switch Ethernet comparabili. A livello di applicazione, InfiniBand può raggiungere latenze di soli 2 microsecondi, rispetto ai 50 microsecondi di TCP/IP.
- Capacità di throughput elevato: InfiniBand supporta velocità di dati estremamente elevate. Le versioni moderne come HDR e NDR offrono fino a 200 Gbps e 400 Gbps per linea. I collegamenti aggregati possono raggiungere un throughput ancora più elevato, arrivando a 800 Gbps (NDR) e persino a 1,6 Tbps (XDR).
- Efficienza della CPU: Un punto di forza chiave di InfiniBand è la sua capacità di fornire una latenza ultra-bassa e una larghezza di banda estremamente elevata con un utilizzo quasi nullo della CPU. Questo offload dell'elaborazione di rete è un vantaggio fondamentale per i carichi di lavoro ad alta intensità di calcolo.
- Prestazioni per progettazione vs. prestazioni per configurazione: InfiniBand e RoCE hanno una differenza fondamentale nel loro approccio. InfiniBand è stato progettato fin dall'inizio per RDMA, con i suoi livelli fisico e di trasporto ingegnerizzati per l'affidabilità a livello hardware, incluso un algoritmo nativo basato su crediti per la comunicazione senza perdita di dati. Al contrario, RoCE funziona su Ethernet standard e si basa sulla configurazione di funzionalità come il Priority Flow Control (PFC) e l'Explicit Congestion Notification (ECN) per creare una rete senza perdite. Ciò significa che InfiniBand fornisce prestazioni elevate garantite fin da subito, mentre le prestazioni di RoCE dipendono dalla qualità della configurazione Ethernet sottostante.
C. Infrastruttura e gestione
- Hardware dedicato: InfiniBand richiede hardware specializzato, inclusi adattatori di canale host (HCA) dedicati, switch, router e cavi proprietari. Ciò comporta tipicamente un investimento iniziale più elevato rispetto alle soluzioni basate su Ethernet.
- Gestione centralizzata: Le reti InfiniBand sono gestite da un Subnet Manager (SM) centrale, che calcola e distribuisce le tabelle di inoltro e gestisce configurazioni come le partizioni e la qualità del servizio (QoS). Questo approccio centralizzato può semplificare la gestione in cluster di grandi dimensioni dopo la configurazione iniziale.
- Competenze specializzate: L'implementazione e la manutenzione delle reti InfiniBand richiedono solitamente conoscenze specializzate, il che può aumentare i costi operativi e creare una curva di apprendimento più ripida per il personale IT.
- Ecosistema: L'ecosistema InfiniBand è maturo ma dominato da NVIDIA/Mellanox.
D. Applicazioni chiave
InfiniBand è lo standard di settore per gli ambienti di calcolo ad alte prestazioni (HPC) ed è l'interconnessione in più rapida crescita per queste applicazioni. È la tecnologia principale raccomandata dall'IBTA. La sua latenza ultra-bassa e l'elevata larghezza di banda sono essenziali per carichi di lavoro impegnativi come l'addestramento di modelli AI/ML su larga scala, l'analisi di big data e le operazioni su database massivi. È anche fondamentale per grandi simulazioni (ad es. previsioni meteorologiche) e servizi finanziari ad alta frequenza, dove la velocità e l'integrità dei dati sono critiche. A giugno 2022, il 62% dei primi 100 supercomputer al mondo utilizzava InfiniBand.
V. iWARP: RDMA su TCP/IP standard
iWARP (Internet Wide Area RDMA Protocol) è un altro metodo per implementare RDMA, noto per il suo utilizzo della suite di protocolli TCP/IP standard.
A. Principi architetturali
- RDMA su TCP/IP: iWARP è un protocollo che implementa RDMA su reti IP standard. A differenza di RoCE, che utilizza UDP, iWARP è costruito su protocolli di trasporto affidabili come TCP e SCTP.
- Componenti chiave: Il funzionamento di iWARP si basa su diversi componenti. Il Direct Data Placement Protocol (DDP) consente la trasmissione zero-copy posizionando i dati direttamente nella memoria di un'applicazione. Il Remote Direct Memory Access Protocol (RDMAP) fornisce i servizi per le operazioni di lettura e scrittura RDMA. È necessario uno strato di adattamento specifico, il Marker PDU Aligned (MPA) framing, per abilitare il DDP su TCP.
- Affidabilità: Una caratteristica unica di iWARP è che la sua affidabilità è fornita dal protocollo TCP sottostante. Questo è diverso da RoCE v2, che utilizza UDP e richiede meccanismi esterni come il Data Center Bridging (DCB) per l'affidabilità. Di conseguenza, iWARP supporta solo comunicazioni affidabili e connesse.
B. Profilo prestazionale
- Latenza e throughput comparativi: Sebbene iWARP abbia una latenza inferiore rispetto al tradizionale TCP/IP, le sue prestazioni sono generalmente peggiori di quelle di RoCE. Nel 2011, la latenza HCA iWARP più bassa era di 3 microsecondi, mentre gli HCA RoCE raggiungevano 1,3 microsecondi. I benchmark mostrano costantemente che RoCE consegna i messaggi molto più velocemente di iWARP, con un throughput più di 2 volte superiore a 40GbE e 5 volte superiore a 10GbE.
- Offload della CPU: Come altri protocolli RDMA, iWARP minimizza il carico sulla CPU consentendo trasferimenti di memoria diretti. Può utilizzare motori di offload TCP (TOE) con hardware RDMA per ottenere risultati zero-copy e ridurre ulteriormente il coinvolgimento della CPU.
C. Infrastruttura e gestione
- Compatibilità con Ethernet standard: Un vantaggio importante di iWARP è la sua capacità di funzionare su un'infrastruttura Ethernet standard con modifiche minime alla rete esistente. Ciò consente alle organizzazioni di sfruttare i loro investimenti attuali.
- Requisiti hardware: Nonostante la sua compatibilità con gli switch Ethernet standard, iWARP richiede comunque schede di rete compatibili con iWARP negli endpoint.
- Aspetti di integrazione: iWARP è integrato nei principali sistemi operativi come Microsoft Windows Server e i moderni kernel Linux. Ciò supporta applicazioni come SMB Direct, iSCSI Extensions for RDMA (iSER) e Network File System over RDMA (NFS over RDMA).
- Sfide di gestione: La gestione del traffico iWARP può essere difficile. Condivide lo spazio delle porte di TCP, il che complica la gestione dei flussi e rende difficile l'identificazione del traffico RDMA. Nel complesso, iWARP è considerato più difficile da gestire rispetto a RoCE.
D. Rilevanza sul mercato
- Adozione limitata: iWARP è un'implementazione RDMA "non comune" o "meno utilizzata" rispetto a InfiniBand e RoCE v2. Le sue soluzioni hanno avuto un "successo limitato" a causa delle sfide di implementazione e distribuzione.
- Il paradosso della dipendenza da TCP: La scelta progettuale di iWARP di stratificare RDMA su TCP fornisce affidabilità e compatibilità integrate ma, paradossalmente, gli impedisce di raggiungere pienamente i benefici principali di RDMA. L'overhead intrinseco del protocollo TCP, anche con l'offload hardware, sembra impedire a iWARP di raggiungere la latenza ultra-bassa e l'alto throughput di InfiniBand o RoCE. Questo compromesso prestazionale ha portato alla sua limitata adozione sul mercato.
VI. Analisi comparativa: RoCE v2 vs. InfiniBand vs. iWARP vs. Ethernet standard
Un confronto dettagliato delle prestazioni, dell'infrastruttura e delle metriche operative è fondamentale per selezionare la giusta interconnessione ad alte prestazioni.
A. Benchmark delle prestazioni
Le prestazioni di queste interconnessioni differiscono notevolmente, specialmente in termini di latenza, larghezza di banda e utilizzo della CPU.
- Latenza:
- InfiniBand: Offre la latenza più bassa. La latenza da porta a porta dello switch è di circa 100 nanosecondi, mentre la latenza dell'adattatore è di soli 0,5-1,3 microsecondi. La latenza a livello di applicazione può essere di soli 2 microsecondi.
- RoCE v2: Fornisce una latenza ultra-bassa. La latenza dello switch Ethernet è di circa 230 nanosecondi, mentre la latenza dell'HCA può essere di soli 1,3 microsecondi. La latenza a livello di applicazione è tipicamente di circa 5 microsecondi.
- iWARP: Ha una latenza superiore a RoCE, con una latenza HCA riportata di circa 3 microsecondi (dati del 2011). Le sue prestazioni sono costantemente peggiori di quelle di RoCE.
- TCP/IP standard: Ha la latenza più alta, con una latenza unidirezionale da 10 a 55 millisecondi. La latenza a livello di applicazione è tipicamente di circa 50 microsecondi.
- Larghezza di banda:
- InfiniBand: Supporta una larghezza di banda molto elevata. Le versioni moderne come NDR offrono fino a 400 Gbps per porta, e XDR raggiunge fino a 800 Gbps. Il futuro GDR dovrebbe raggiungere 1,6 Tbps.
- RoCE v2: Capace di un'elevata larghezza di banda, supportando fino a 400 Gbps per porta.
- iWARP: Generalmente ha un throughput inferiore a RoCE.
- TCP/IP standard: Il throughput è spesso limitato dall'overhead del protocollo e dalle ritrasmissioni, rendendo difficile l'utilizzo efficiente di collegamenti ad alta larghezza di banda.
- Offload della CPU:
- InfiniBand, RoCE v2, iWARP: Tutte e tre le tecnologie RDMA scaricano un notevole lavoro dalla CPU bypassando il sistema operativo, liberando risorse della CPU per altre attività.
- TCP/IP standard: Comporta un elevato carico sulla CPU perché il kernel è pesantemente coinvolto nell'elaborazione dei dati.
- Meccanismo senza perdita di dati:
- InfiniBand: Presenta un controllo di flusso nativo basato su crediti a livello hardware, che garantisce una comunicazione senza perdita di dati.
- RoCE v2: Si basa su una configurazione Ethernet senza perdita di dati, utilizzando funzionalità di Data Center Bridging (DCB) come PFC ed ECN. Dispone anche di un meccanismo di consegna affidabile end-to-end con ritrasmissioni hardware.
- iWARP: Utilizza il trasporto affidabile integrato di TCP per l'integrità dei dati.
- TCP/IP standard: Utilizza un modello di consegna "best-effort", basandosi su ritrasmissioni a livelli superiori per garantire l'affidabilità, il che aggiunge latenza.
La seguente tabella riassume le caratteristiche prestazionali:
| Caratteristica | InfiniBand | RoCE v2 | iWARP | Ethernet/TCP/IP standard |
|---|---|---|---|---|
| Tecnologia di base | RDMA nativo | RDMA su Ethernet (UDP/IP) | RDMA su Ethernet (TCP/IP) | Protocollo a livelli tradizionale |
| Latenza tipica dell'applicazione (µs) | 2 | 5 | >3 (HCA 2011) | 50 |
| Latenza switch porta-a-porta (ns) | 100 | 230 | N/D (dipende da Ethernet) | Tipicamente più alta, variabile |
| Larghezza di banda massima (Gbps per porta/link) | 400 (NDR), 800 (XDR), 1.6T (GDR) | 400 | Generalmente inferiore a RoCE | 400+ (ma limitata dall'overhead del protocollo) |
| Overhead della CPU | Quasi nullo | Molto basso | Basso | Alto |
| Meccanismo senza perdita di dati | Controllo di flusso nativo basato su crediti | Richiede Ethernet senza perdita di dati (PFC, ECN) | Trasporto affidabile di TCP | Best-Effort, si basa su ritrasmissioni |
| Instradabilità (L2/L3) | L3 (tramite Subnet Manager) | L3 (RoCE instradabile) | L3 | L3 (Routing IP standard) |
B. Infrastruttura ed ecosistema
- Dipendenze hardware:
- InfiniBand: Richiede un set completo di hardware specializzato, inclusi HCA InfiniBand, switch e cavi proprietari.
- RoCE v2: Richiede HCA compatibili con RoCE ma funziona su switch e cavi Ethernet standard, consentendo l'integrazione con le reti esistenti.
- iWARP: Richiede schede di rete compatibili con iWARP ma può utilizzare switch Ethernet standard.
- Ethernet standard: Utilizza NIC e switch Ethernet ampiamente disponibili e di tipo commodity.
- Vendor Lock-in:
- InfiniBand: L'ecosistema è limitato e dominato da Mellanox (NVIDIA), il che può sollevare preoccupazioni riguardo al vendor lock-in.
- RoCE v2: Beneficia di un ecosistema Ethernet ampio e competitivo con più fornitori. Alcuni offrono NIC "Universal RDMA" che supportano sia RoCE che iWARP, riducendo il lock-in.
- iWARP: Beneficia anche dell'ampio ecosistema Ethernet, con il supporto di fornitori come Intel e Chelsio.
- Interoperabilità:
- InfiniBand: Essendo uno standard proprietario, tutti i componenti devono aderire alle specifiche IBTA per garantire che funzionino insieme.
- RoCE v2: La sua base su Ethernet standard consente un'interoperabilità più ampia e una più facile integrazione con le reti esistenti.
- iWARP: Basato su RFC IETF standard per TCP/IP, garantendo un'elevata compatibilità all'interno delle reti IP standard.
C. Efficienza dei costi
- Investimento iniziale:
- InfiniBand: Richiede tipicamente un investimento iniziale più elevato a causa dell'hardware specializzato e delle licenze. Per grandi cluster AI, gli switch InfiniBand possono essere significativamente più costosi degli switch RoCE.
- RoCE v2: Spesso un'opzione più economica perché può integrarsi con l'Ethernet esistente, riducendo i costi per nuovo hardware. I risparmi sugli switch per grandi cluster AI possono essere sostanziali (dal 49% al 70% rispetto a InfiniBand).
- iWARP: Utilizza switch Ethernet standard ma richiede adattatori specializzati, che possono comunque rappresentare un costo notevole.
- Ethernet standard: Generalmente l'opzione a più basso costo grazie al suo hardware di tipo commodity.
- Costo totale di proprietà (TCO):
- InfiniBand: Tende ad avere un TCO più elevato a causa dell'hardware specializzato, della manutenzione e della necessità di formazione del personale su una tecnologia proprietaria.
- RoCE v2: Può avere un TCO inferiore, ma questo è condizionale. La complessità della configurazione e della manutenzione di un fabric Ethernet senza perdita di dati può aumentare significativamente i costi operativi. Sebbene i costi hardware iniziali possano essere inferiori, le conoscenze specializzate e lo sforzo richiesti per la progettazione, la risoluzione dei problemi e la manutenzione possono annullare questi risparmi. Pertanto, l'"efficienza dei costi" dipende sia dal prezzo dell'hardware che dalle competenze e dal carico di gestione dell'organizzazione.
- iWARP: Le sfide di integrazione e gestione possono influire sul suo TCO complessivo.
La seguente tabella fornisce una panoramica comparativa delle considerazioni su infrastruttura e costi:
| Caratteristica | InfiniBand | RoCE v2 | iWARP | Ethernet/TCP/IP standard |
|---|---|---|---|---|
| Hardware di rete richiesto | NIC IB dedicate, Switch IB, Cavi IB | NIC compatibili RoCE, Switch/Cavi Ethernet standard | NIC compatibili iWARP, Switch/Cavi Ethernet standard | NIC Ethernet standard, Switch/Cavi Ethernet |
| Compatibilità di rete | Proprietaria (Standard IBTA) | Ethernet standard (IEEE) | Ethernet standard (RFC IETF) | Ethernet standard (IEEE) |
| Complessità di gestione | Difficile (SM specializzato) | Difficile (Config. Ethernet lossless) | Più difficile di RoCE | Facile |
| Costo hardware iniziale (Relativo) | Alto | Moderato (Sfrutta l'esistente) | Moderato (NIC specializzate) | Basso |
| Costo totale di proprietà (Relativo) | Più alto | Più basso (Condizionale alla gestione) | Variabile (Sfide di integrazione) | Il più basso |
| Ecosistema di fornitori | Limitato (NVIDIA/Mellanox dominante) | Ampio (Più fornitori Ethernet) | Ampio (Più fornitori Ethernet) | Molto ampio |
D. Scalabilità e flessibilità
- Capacità di routing:
- InfiniBand: Utilizza un fabric commutato con routing gestito centralmente da un Subnet Manager (SM). È altamente scalabile, supportando cluster con oltre 100.000 nodi.
- RoCE v2: La sua incapsulazione UDP/IP gli consente di essere instradato su reti IP di Livello 3, rendendolo scalabile su grandi reti e ambienti cloud. Supporta anche ECMP per un bilanciamento del carico efficiente.
- iWARP: È instradabile su reti IP.
- Ethernet standard: Altamente scalabile e flessibile, ma può richiedere configurazioni avanzate come le architetture spine-leaf per un'efficienza a livello di HPC.
- Topologie di rete:
- InfiniBand: Ottimizzato per cluster HPC/AI, supportando topologie ad alte prestazioni come Fat Tree, Dragonfly+ e Torus multidimensionale.
- RoCE v2: Il suo routing basato su IP lo rende adattabile a quasi ogni topologia di rete.
- Ethernet standard: Supporta una vasta gamma di topologie, tra cui stella e mesh.
E. Affidabilità e controllo della congestione
- Affidabilità:
- InfiniBand: Fornisce affidabilità nativa a livello hardware con il suo controllo di flusso basato su crediti, garantendo una comunicazione senza perdita di dati.
- RoCE v2: Si basa su una configurazione Ethernet senza perdita di dati utilizzando PFC ed ETS. Include anche un meccanismo di consegna affidabile end-to-end con ritrasmissione dei pacchetti basata su hardware.
- iWARP: Beneficia dell'affidabilità intrinseca di TCP, che fornisce correzione degli errori e ritrasmissioni.
- TCP/IP standard: Si concentra sull'affidabilità attraverso le ritrasmissioni, che possono aggiungere una latenza significativa e ridurre il throughput.
- Controllo della congestione:
- InfiniBand: Definisce i propri meccanismi di controllo della congestione basati sulla marcatura FECN/BECN.
- RoCE v2: Implementa un protocollo di controllo della congestione utilizzando i bit IP ECN e i Congestion Notification Packets (CNP). Vengono utilizzate anche pratiche di settore come DCQCN.
- iWARP: Si basa sugli algoritmi di controllo della congestione consolidati di TCP.
F. Idoneità dell'applicazione
- InfiniBand: La scelta ideale per ambienti che necessitano del massimo throughput di dati e della latenza più bassa. Ciò include la ricerca scientifica, la modellazione finanziaria, i cluster HPC su larga scala e i carichi di lavoro di addestramento AI/ML più esigenti.
- RoCE v2: Preferito dalle aziende che desiderano utilizzare la loro infrastruttura Ethernet esistente pur necessitando di alte prestazioni. È adatto per reti di storage, analisi in tempo reale e servizi cloud, offrendo un equilibrio tra prestazioni e costi.
- iWARP: Può essere considerato per applicazioni di nicchia in cui l'infrastruttura TCP/IP esistente è un requisito rigoroso e la latenza ultra-bassa non è la priorità assoluta. È adatto per applicazioni come NVMeoF, iSER, SMB Direct e NFS over RDMA, o come opzione a basso costo per ambienti di test.
- Ethernet/TCP/IP standard: Rimane la scelta migliore per il networking generico, come le LAN aziendali e l'infrastruttura cloud dove le prestazioni estreme di HPC/AI non sono l'obiettivo principale.
- Il trilemma prestazioni-costo-complessità: Questa analisi rivela un compromesso fondamentale nella scelta di un'interconnessione: un trilemma tra prestazioni, costo e complessità. InfiniBand offre prestazioni di punta e affidabilità nativa ma a un costo più elevato. RoCE v2 fornisce prestazioni quasi pari a InfiniBand su Ethernet, potenzialmente riducendo i costi hardware ma aggiungendo una significativa complessità di configurazione. iWARP offre RDMA su TCP ma con prestazioni inferiori. L'Ethernet standard è economica ma manca delle prestazioni per i carichi di lavoro esigenti. Non esiste una singola soluzione "migliore"; la scelta giusta richiede di bilanciare questi tre fattori in base a esigenze e capacità specifiche.
La seguente tabella delinea l'idoneità dell'applicazione per ciascuna tecnologia:
| Tecnologia | Casi d'uso principali | Ideale per | Meno adatto per |
|---|---|---|---|
| InfiniBand | HPC, Addestramento AI/ML, Analisi Big Data, Servizi Finanziari (Arbitraggio) | Ambienti che richiedono la latenza più bassa in assoluto, la massima larghezza di banda e garanzie native di assenza di perdite | Networking aziendale generico sensibile ai costi, ambienti senza competenze IT specializzate |
| RoCE v2 | Data Center, Servizi Cloud, Reti di Storage, Analisi in Tempo Reale, Inferenza AI/ML | Organizzazioni che sfruttano l'infrastruttura Ethernet esistente per alte prestazioni; equilibrio tra costi e prestazioni | Ambienti in cui le garanzie native di assenza di perdite non sono negoziabili senza ampie competenze di configurazione |
| iWARP | NVMeoF, iSER, SMB Direct, NFS over RDMA, Ambienti di Test/Sviluppo | Applicazioni specifiche che richiedono RDMA su TCP/IP esistente, dove le massime prestazioni non sono critiche | Cluster HPC/AI su larga scala, applicazioni in tempo reale sensibili alla latenza |
| Ethernet/TCP/IP standard | Networking Aziendale Generico, LAN, Connettività Internet, Infrastruttura Cloud | Networking generico onnipresente, economico e flessibile | Calcolo ad alte prestazioni, addestramento AI/ML e altri carichi di lavoro sensibili alla latenza e ad alta intensità di CPU |
VII. Interconnessioni ad alte prestazioni emergenti e tendenze future
Il panorama del networking ad alte prestazioni è in continua evoluzione, spinto da carichi di lavoro ad alta intensità di dati e dalla necessità di una maggiore efficienza. Oltre alle tecnologie RDMA consolidate, nuove interconnessioni e tendenze stanno plasmando il futuro dei data center.
A. Compute Express Link (CXL)
CXL è un'interconnessione moderna costruita sul livello fisico PCIe, progettata per sistemi di calcolo generici. Il suo obiettivo principale è consentire una comunicazione rapida e senza interruzioni tra CPU e acceleratori come GPU e FPGA.
Le caratteristiche principali di CXL includono il trasferimento dati ad alta velocità, un'ampia compatibilità e una condivisione efficiente della memoria attraverso la coerenza della cache. Supporta tre tipi di dispositivi (per acceleratori, dispositivi con coerenza di cache ed espansori di memoria) e topologie flessibili. CXL/PCIe Gen5 offre un throughput di picco di 512 Gbps con una latenza di circa 500 nanosecondi. Sebbene InfiniBand abbia una latenza inferiore (circa 100 nanosecondi), CXL è superiore per l'accesso alla memoria a bassa latenza dove la coerenza della cache è fondamentale.
Uno sviluppo importante è stata la fusione dei consorzi Gen-Z e CXL nel 2022, che posiziona CXL come l'unico standard di settore per questa classe di interconnessioni focalizzate sulla memoria.
CXL rappresenta un passaggio dal tradizionale networking da nodo a nodo (come RoCE e InfiniBand) verso la coerenza della memoria e la disaggregazione delle risorse. Ciò significa che per determinati carichi di lavoro, CXL potrebbe diventare l'interconnessione principale, integrando o riducendo la necessità di fabric di rete tradizionali.
B. NVLink
NVLink è l'interconnessione proprietaria ad alta larghezza di banda e bassa latenza di NVIDIA, progettata per la comunicazione diretta da GPU a GPU e da GPU a CPU all'interno delle sue piattaforme di calcolo accelerato.
NVLink è una parte fondamentale delle soluzioni di NVIDIA per l'AI e l'HPC, come le sue architetture GB200 e GB300. È cruciale per scalare l'addestramento dei modelli di AI fornendo trasferimenti di dati estremamente veloci tra le GPU.
NVLink mostra una tendenza verso l'integrazione verticale e le prestazioni specializzate. La sua natura proprietaria contrasta con standard aperti come RoCE o InfiniBand. Questo design massimizza le prestazioni all'interno dello stack hardware di un singolo fornitore. Mentre InfiniBand e RoCE gestiscono il networking generale tra i nodi, NVLink ottimizza la comunicazione all'interno e tra i sistemi GPU, creando un'architettura di interconnessione a più livelli in cui tecnologie diverse soddisfano esigenze diverse.
C. Velocità future di Ethernet
Ethernet si è evoluta da 10 Mbps a 400 Gbps, e lo sviluppo continua con gli standard 800GbE e 1.6TbE all'orizzonte. Queste velocità più elevate saranno essenziali per le applicazioni di prossima generazione come il calcolo quantistico, l'AI avanzata e le tecnologie immersive.
L'aumento continuo delle velocità di Ethernet avvantaggia direttamente RoCE. Poiché RoCE è costruito su Ethernet, beneficia automaticamente di questi progressi, aiutandolo a rimanere competitivo con InfiniBand. La crescita dei servizi cloud sta già spingendo l'implementazione di 200GbE e 400GbE, con 800GbE e 1.6TbE a seguire.
La rilevanza continua di Ethernet e RoCE sono strettamente collegate. Man mano che le velocità di Ethernet avanzano, RoCE diventa un concorrente ancora più forte per i data center ad alte prestazioni, specialmente per le organizzazioni che vogliono sfruttare i loro investimenti Ethernet esistenti ed evitare ecosistemi proprietari.
D. Calcolo disaggregato e fotonica
- Calcolo disaggregato: Questo nuovo approccio mira a migliorare l'efficienza dei data center disaccoppiando risorse come calcolo, storage e memoria dai server tradizionali. Queste risorse vengono poi riassemblate in pool flessibili connessi da networking avanzato. Un risultato chiave è che la comunicazione che una volta avveniva all'interno di un server ora attraversa la rete, aumentando drasticamente il carico e rendendo critica la latenza ultra-bassa. Questa tendenza rafforza la necessità di interconnessioni ad alte prestazioni come RoCE e InfiniBand e guida lo sviluppo di nuove come CXL.
- Fotonica nel networking dei data center: La fotonica del silicio integra componenti ottici su chip di silicio, consentendo interconnessioni ottiche ad alta velocità e basso consumo. Questa tecnologia offre velocità di trasferimento dati molto più elevate (oltre 100 Gbps), latenza inferiore e migliore efficienza energetica rispetto al rame tradizionale. Sta diventando essenziale per soddisfare le crescenti esigenze di traffico nei data center e per abilitare la prossima generazione di Ethernet ad alta velocità.
La relazione tra queste tendenze è simbiotica. Le architetture disaggregate richiedono un networking avanzato, fornito da interconnessioni come RoCE, InfiniBand e CXL. A loro volta, il raggiungimento delle velocità necessarie per queste interconnessioni, specialmente per i futuri standard 800GbE e 1.6TbE, si baserà su tecnologie come la fotonica del silicio.
VIII. Raccomandazioni e conclusioni
La scelta di un'interconnessione ad alte prestazioni è una decisione strategica critica che deve allinearsi con le esigenze specifiche, il budget, l'infrastruttura e la visione a lungo termine di un'organizzazione.
- Per massime prestazioni grezze e HPC/AI mission-critical: InfiniBand è chiaramente il gold standard. Il suo RDMA nativo, il controllo di flusso basato su crediti e il design appositamente costruito offrono la latenza più bassa e il throughput più elevato con prestazioni garantite senza perdita di dati. Le organizzazioni con il budget e le competenze necessarie dovrebbero scegliere InfiniBand per cluster su larga scala in cui ogni microsecondo conta.
- Per alte prestazioni con efficienza dei costi e integrazione Ethernet: RoCE v2 è un'alternativa forte e sempre più popolare. Offre importanti guadagni prestazionali rispetto a TCP/IP e può avvicinarsi alle prestazioni di InfiniBand utilizzando l'infrastruttura Ethernet esistente. È ideale per le organizzazioni che aggiornano i loro data center senza una revisione completa. Tuttavia, questa scelta richiede l'impegno a configurare e gestire attentamente un fabric Ethernet senza perdita di dati.
- Per applicazioni di nicchia o ambienti RDMA legacy su TCP: iWARP può essere adatto in casi specifici, specialmente dove l'utilizzo dell'infrastruttura TCP/IP esistente è un must e le massime prestazioni non sono l'obiettivo primario. Tuttavia, le sue prestazioni inferiori e la maggiore complessità di gestione ne limitano l'uso nelle moderne implementazioni ad alte prestazioni.
- Per il networking generico: L'Ethernet/TCP/IP standard rimane la scelta più comune ed economica per ambienti senza esigenze di prestazioni estreme. La sua facilità d'uso e l'hardware di tipo commodity lo rendono perfetto per le reti aziendali generiche, le LAN e l'infrastruttura cloud standard.
- Considerare le tecnologie emergenti per la prova del futuro: Le organizzazioni dovrebbero monitorare lo sviluppo di CXL per architetture centrate sulla memoria e disaggregate, poiché integra i fabric di rete tradizionali ottimizzando il pooling delle risorse. Allo stesso modo, NVLink è fondamentale per ottimizzare la comunicazione all'interno dei sistemi pesantemente basati su GPU di NVIDIA. Queste tecnologie mostrano una diversificazione delle interconnessioni per diversi strati della gerarchia di calcolo. Inoltre, lo sviluppo di Ethernet a 800GbE e 1.6TbE, insieme ai progressi nella fotonica, continuerà a rendere RoCE un'opzione ancora più potente.
In conclusione, il networking ad alte prestazioni è complesso, spinto dalle esigenze di AI, HPC e dal passaggio verso il calcolo disaggregato. Mentre InfiniBand è leader nelle prestazioni assolute per ambienti specializzati, RoCE v2 fornisce un'alternativa potente e flessibile che unisce i vantaggi di RDMA con l'onnipresenza di Ethernet. L'emergere di CXL e NVLink indica una diversificazione strategica delle interconnessioni, ottimizzando diversi strati di comunicazione. La soluzione ottimale sarà sempre un equilibrio strategico tra requisiti di prestazione, costi, infrastruttura esistente e una visione lungimirante.




