Analyse complète des interconnexions à haute performance : RoCE v2, InfiniBand, iWARP et les nouvelles alternatives pour les centres de données modernes

Catégorisé comme Hardware
Save and Share:

I. Synthèse

Les centres de données modernes doivent prendre en charge des charges de travail exigeantes telles que le calcul haute performance (HPC), l'intelligence artificielle/l'apprentissage automatique (IA/ML) et l'analyse de mégadonnées (Big Data). Ces applications requièrent une latence ultra-faible, une bande passante élevée et une utilisation minimale du processeur. Les protocoles réseau traditionnels comme TCP/IP ne peuvent répondre à ces besoins en raison de leur surcharge et de leur latence élevées.

L'accès direct à la mémoire à distance (RDMA) est la technologie clé qui permet les interconnexions à haute performance. Le RDMA permet aux ordinateurs en réseau de transférer des données directement entre leurs mémoires sans impliquer leurs systèmes d'exploitation ou leurs processeurs (de mémoire à mémoire). Ce processus réduit considérablement la latence et la charge du processeur.

  • InfiniBand est une fabric propriétaire spécialement conçue pour offrir les meilleures performances possibles et un fonctionnement nativement sans perte.
  • RoCE v2 (RDMA over Converged Ethernet) applique les avantages du RDMA sur l'Ethernet standard, offrant une option routable et plus rentable, mais nécessite des configurations spécifiques pour être sans perte.
  • iWARP est une autre solution RDMA sur Ethernet basée sur TCP, mais elle est généralement moins courante et offre des performances inférieures à celles de RoCE v2.

Choisir la bonne interconnexion est une décision stratégique qui dépend des besoins en performance, du budget, de l'infrastructure existante et des objectifs d'évolutivité. Ce rapport analyse ces technologies, les compare à l'Ethernet/TCP/IP standard et explore de nouvelles alternatives comme CXL et NVLink pour guider cette décision critique.

II. Introduction aux réseaux haute performance et au RDMA

Le monde numérique actuel se caractérise par une croissance exponentielle des applications gourmandes en données, comme le calcul haute performance (HPC), l'intelligence artificielle/l'apprentissage automatique (IA/ML) et l'analyse de mégadonnées. Ces charges de travail doivent déplacer des ensembles de données massifs rapidement et efficacement entre les nœuds de calcul et le stockage. Par exemple, les applications d'IA sont très sensibles à l'intégrité des données et nécessitent des réseaux sans perte, où un seul message perdu pourrait ruiner une session d'entraînement entière. Un trafic à large bande passante est également essentiel pour que ces applications traitent les données efficacement.

Limites de l'Ethernet TCP/IP traditionnel pour les applications haute performance

Bien que fiable pour les réseaux généraux, l'Ethernet TCP/IP traditionnel présente des limitations majeures pour les applications haute performance :

  • Latence et surcharge CPU élevées : La conception de TCP/IP envoie les données à travers plusieurs couches logicielles dans le noyau du système d'exploitation, ce qui requiert une implication significative du processeur. Ce processus ajoute une latence considérable (généralement des dizaines de microsecondes) et impose une lourde charge au processeur. Pour les applications sensibles à la latence, cela devient un goulot d'étranglement majeur, car le processeur passe son temps à gérer le trafic réseau au lieu d'exécuter l'application. Cette « taxe CPU », due à la commutation de contexte et à la copie de données, est une raison principale pour adopter les technologies RDMA, qui déchargent le traitement réseau et libèrent le processeur pour les tâches applicatives.
  • Limitations de débit : Plusieurs facteurs limitent le débit effectif de TCP, notamment la taille de la fenêtre de transmission, la taille des segments et la perte de paquets. La taille de la fenêtre TCP standard (souvent plafonnée à 65 535 octets) peut empêcher une utilisation complète des liaisons à large bande passante, en particulier sur les réseaux à latence plus élevée. De plus, le mécanisme de fiabilité de base de TCP — la retransmission des paquets — introduit des retards et utilise une bande passante supplémentaire, ce qui nuit aux performances dans les réseaux congestionnés ou sujets aux pertes.
  • Défis d'évolutivité : Bien que TCP/IP s'adapte bien aux grands réseaux, sa conception privilégie la fiabilité générale plutôt que la performance brute. Cela le rend moins efficace pour les scénarios exigeant un débit extrême et une latence minimale, comme les clusters HPC à grande échelle ou l'inférence IA en temps réel.

Fondamentaux de l'accès direct à la mémoire à distance (RDMA) et ses principaux avantages

L'accès direct à la mémoire à distance (RDMA) a été développé pour surmonter les limitations de TCP/IP dans les environnements haute performance. Ses principaux avantages proviennent du contournement du processeur et du système d'exploitation lors des transferts de données :

  • Accès direct à la mémoire (Zéro-copie) : Le RDMA transfère les données directement de la mémoire d'un ordinateur à celle d'un autre sans impliquer le processeur ou le système d'exploitation de l'un ou l'autre système. Cette approche « zéro-copie » élimine les tampons de données intermédiaires et les commutations de contexte, qui sont des sources majeures de surcharge dans les réseaux traditionnels.
  • Latence et charge CPU réduites : En contournant le processeur et le système d'exploitation, le RDMA réduit considérablement la latence de communication et libère des cycles CPU. Cela se traduit directement par des calculs plus rapides et un meilleur traitement des données en temps réel. Par exemple, la latence applicative peut passer d'environ 50 microsecondes avec TCP/IP à seulement 2 à 5 microsecondes avec le RDMA.
  • Meilleure utilisation de la bande passante : Le chemin de données efficace et la surcharge réduite du RDMA permettent aux applications de mieux utiliser la bande passante réseau disponible, ce qui se traduit par un débit effectif plus élevé.
  • Implémentations clés : Les principales technologies RDMA utilisées aujourd'hui sont InfiniBand, RoCE (versions 1 et 2) et iWARP.

III. RoCE v2 : RDMA sur Ethernet Convergé

RoCE v2 représente une avancée majeure dans les réseaux haute performance, étendant les avantages du RDMA à l'écosystème Ethernet largement utilisé.

A. Principes architecturaux

  • Évolution depuis RoCE v1 : RoCE v1 était un protocole de couche 2 (Ethertype 0x8915), ce qui le confinait à un seul domaine de diffusion Ethernet et limitait son évolutivité. RoCE v2 résout ce problème en opérant au niveau de la couche Internet. Il encapsule le trafic RDMA dans des paquets UDP/IP (en utilisant le port de destination UDP 4791), le rendant ainsi routable à travers les réseaux IP de couche 3. Cette capacité de routage est une amélioration essentielle, permettant à RoCE v2 d'être utilisé dans des centres de données à grande échelle et des environnements cloud.
  • Intégration RDMA sur Ethernet : RoCE fournit une méthode pour effectuer du RDMA sur un réseau Ethernet standard. Il remplace efficacement la couche réseau InfiniBand par des en-têtes IP et UDP tout en conservant la couche de transport InfiniBand de base et le protocole RDMA. Cette conception permet à RoCE de tirer parti de l'infrastructure Ethernet existante.
  • Format des paquets : Un paquet RoCE v2 comprend un en-tête IP et un en-tête UDP, qui encapsulent le protocole de transport RDMA. Bien que l'UDP ne garantisse pas l'ordre des paquets, la norme RoCE v2 exige que les paquets ayant le même port source et la même adresse de destination ne soient pas réorganisés.
  • Le compromis du « meilleur des deux mondes » : La conception de RoCE v2 est un compromis stratégique, visant à offrir la haute performance du RDMA sur la plateforme Ethernet flexible, rentable et omniprésente. Bien que cette approche offre une large compatibilité, elle crée un défi majeur : garantir la performance sans perte dont le RDMA a besoin sur un réseau Ethernet, qui est intrinsèquement sujet aux pertes.

B. Profil de performance

  • Latence : Les adaptateurs de canal hôte (HCA) RoCE peuvent atteindre des latences très faibles, jusqu'à 1,3 microseconde. Au niveau applicatif, RoCE réduit la latence à environ 5 microsecondes, une amélioration considérable par rapport aux 50 microsecondes typiques avec TCP/IP. Bien qu'InfiniBand offre une latence native légèrement inférieure, la performance de RoCE est excellente pour les applications en temps réel.
  • Bande passante : RoCE v2 prend en charge une bande passante élevée, avec des vitesses allant jusqu'à 400 Gbit/s par port.
  • Déchargement CPU : Comme d'autres protocoles RDMA, RoCE contourne le processeur pour les transferts de données. Ce déchargement libère de précieuses ressources CPU pour des tâches gourmandes en calcul plutôt que pour le traitement réseau.
  • Performance sans perte : Pour égaler la performance d'InfiniBand, RoCE dépend d'un réseau Ethernet sans perte. Ceci est généralement réalisé en implémentant des fonctionnalités de Data Center Bridging (DCB), en particulier le Priority Flow Control (PFC) et l'Explicit Congestion Notification (ECN).

C. Infrastructure et gestion

  • Exigences matérielles/logicielles : RoCE fonctionne avec du matériel Ethernet standard comme les commutateurs et les câbles, permettant aux organisations d'utiliser leur infrastructure existante. Cependant, il nécessite des adaptateurs de canal hôte (HCA) compatibles RoCE aux points d'extrémité. Le support logiciel est mature, avec des implémentations dans Mellanox OFED 2.3+ et une intégration dans le noyau Linux v4.5+.
  • Configuration de réseau sans perte : Bien que RoCE utilise l'Ethernet standard, la création d'un réseau DCB sans perte peut être plus complexe que la mise en place d'un réseau InfiniBand. Chaque composant, des points d'extrémité aux commutateurs, doit être soigneusement configuré. Cela inclut la configuration du Priority Flow Control (PFC), de l'Enhanced Transmission Selection (ETS) et des mécanismes de notification de congestion. Pour fonctionner sur des réseaux de couche 3, ces caractéristiques sans perte doivent être maintenues à travers les routeurs, souvent en mappant les paramètres de priorité de couche 2 aux paramètres de QoS DSCP de couche 3.
  • Considérations de gestion : RoCE peut être géré avec des outils Ethernet standard. Cependant, assurer une performance sans perte constante et gérer la congestion dans les déploiements RoCE v2 à grande échelle peut être difficile et nécessite une expertise spécialisée.
  • Le coût caché de la « rentabilité » : RoCE est souvent qualifié de « rentable » car il peut utiliser l'infrastructure Ethernet existante, mais c'est une simplification excessive. Atteindre une performance de type InfiniBand nécessite un réseau Ethernet sans perte parfaitement configuré. La complexité de la mise en place des fonctionnalités de Data Center Bridging (DCB) comme le PFC et l'ECN peut être beaucoup plus élevée que la configuration d'un réseau InfiniBand. Cette complexité entraîne des coûts opérationnels plus élevés pour la conception, le dépannage et la gestion du réseau, et peut nécessiter des commutateurs Ethernet plus chers. Par conséquent, les économies initiales sur le matériel avec RoCE pourraient être annulées par ces coûts opérationnels plus élevés. Une analyse approfondie du coût total de possession (TCO) est essentielle pour une comparaison précise.

D. Applications clés

RoCE v2 est une excellente solution pour de nombreuses applications de centre de données et d'entreprise. Il est particulièrement bien adapté aux environnements qui nécessitent une latence ultra-faible et un débit élevé, tels que les charges de travail d'IA, le trading à haute fréquence et l'analyse en temps réel. Il améliore également les performances des applications qui dépendent fortement des bases de données ou des E/S de fichiers. De plus, RoCE v2 facilite la continuité des activités et la reprise après sinistre en permettant une réplication de données rapide et efficace. Son utilisation répandue dans les clusters d'entraînement d'IA souligne son importance dans l'informatique moderne.

IV. InfiniBand : la fabric spécialisée haute performance

InfiniBand est une interconnexion haute performance de premier ordre, conçue dès le départ pour fournir une vitesse inégalée, une latence minimale et une haute fiabilité pour les environnements informatiques exigeants.

A. Principes architecturaux

  • RDMA natif : InfiniBand a été construit avec le RDMA intégré dans toute sa pile protocolaire, de la couche physique vers le haut. Cette conception fondamentale garantit que les opérations RDMA sont très efficaces, créant des canaux de données directs et protégés entre les nœuds sans intervention du processeur.
  • Topologie de fabric commutée : InfiniBand utilise une topologie de fabric commutée pour des connexions point à point directes entre les appareils. L'architecture comprend des adaptateurs de canal hôte (HCA) sur les processeurs et des adaptateurs de canal cible (TCA) sur les périphériques, permettant une communication efficace.
  • Contrôle de flux basé sur le crédit : Une caractéristique essentielle d'InfiniBand est son contrôle de flux basé sur le crédit. Cet algorithme au niveau matériel garantit une communication sans perte en s'assurant qu'un émetteur ne transmet des données que si le récepteur dispose de suffisamment d'espace tampon (crédits) pour les accepter. Cette fiabilité native empêche la perte de paquets et distingue InfiniBand des technologies qui nécessitent des configurations de couches supérieures pour être sans perte.
  • Normes propriétaires : InfiniBand suit des normes propriétaires définies par l'InfiniBand Trade Association (IBTA), fondée en 1999. L'écosystème est fortement dominé par NVIDIA (via son acquisition de Mellanox), un fabricant leader d'adaptateurs et de commutateurs InfiniBand.

B. Profil de performance

  • Latence ultra-faible : InfiniBand offre constamment la latence la plus faible. Les latences des adaptateurs peuvent être aussi basses que 0,5 microseconde, et la latence de port à port de commutateur est d'environ 100 nanosecondes, soit nettement moins que les 230 nanosecondes des commutateurs Ethernet comparables. Au niveau de la couche applicative, InfiniBand peut atteindre des latences aussi basses que 2 microsecondes, contre 50 microsecondes pour TCP/IP.
  • Capacités à haut débit : InfiniBand prend en charge des débits de données extrêmement élevés. Les versions modernes comme HDR et NDR offrent jusqu'à 200 Gbit/s et 400 Gbit/s par voie. Les liaisons agrégées peuvent atteindre un débit encore plus élevé, atteignant 800 Gbit/s (NDR) et même 1,6 Tbit/s (XDR).
  • Efficacité du CPU : L'une des forces clés d'InfiniBand est sa capacité à fournir une latence ultra-faible et une bande passante extrêmement élevée avec une utilisation quasi nulle du CPU. Ce déchargement du traitement réseau est un avantage essentiel pour les charges de travail gourmandes en calcul.
  • Performance par conception vs performance par configuration : InfiniBand et RoCE ont une différence fondamentale dans leur approche. InfiniBand a été conçu dès le départ pour le RDMA, avec ses couches physique et de transport conçues pour une fiabilité au niveau matériel, y compris un algorithme natif basé sur le crédit pour une communication sans perte. En revanche, RoCE fonctionne sur l'Ethernet standard et repose sur la configuration de fonctionnalités telles que le Priority Flow Control (PFC) et l'Explicit Congestion Notification (ECN) pour créer un réseau sans perte. Cela signifie qu'InfiniBand offre une haute performance garantie dès la sortie de la boîte, tandis que la performance de RoCE dépend de la qualité de la configuration Ethernet sous-jacente.

C. Infrastructure et gestion

  • Matériel dédié : InfiniBand nécessite du matériel spécialisé, y compris des adaptateurs de canal hôte (HCA) dédiés, des commutateurs, des routeurs et des câbles propriétaires. Cela se traduit généralement par un investissement initial plus élevé par rapport aux solutions basées sur Ethernet.
  • Gestion centralisée : Les réseaux InfiniBand sont gérés par un gestionnaire de sous-réseau (Subnet Manager - SM) central, qui calcule et distribue les tables de transfert et gère les configurations comme les partitions et la qualité de service (QoS). Cette approche centralisée peut simplifier la gestion dans les grands clusters après la configuration initiale.
  • Expertise spécialisée : Le déploiement et la maintenance des réseaux InfiniBand nécessitent généralement des connaissances spécialisées, ce qui peut augmenter les coûts opérationnels et créer une courbe d'apprentissage plus abrupte pour le personnel informatique.
  • Écosystème : L'écosystème InfiniBand est mature mais dominé par NVIDIA/Mellanox.

D. Applications clés

InfiniBand est la norme de l'industrie pour les environnements de calcul haute performance (HPC) et constitue l'interconnexion à la croissance la plus rapide pour ces applications. C'est la technologie principale recommandée par l'IBTA. Sa latence ultra-faible et sa bande passante élevée sont essentielles pour les charges de travail exigeantes comme l'entraînement de modèles d'IA/ML à grande échelle, l'analyse de mégadonnées et les opérations massives sur les bases de données. Il est également crucial pour les grandes simulations (par exemple, les prévisions météorologiques) et les services financiers à haute fréquence, où la vitesse et l'intégrité des données sont critiques. En juin 2022, 62 % des 100 meilleurs supercalculateurs du monde utilisaient InfiniBand.

V. iWARP : RDMA sur TCP/IP standard

iWARP (Internet Wide Area RDMA Protocol) est une autre méthode pour implémenter le RDMA, remarquable pour son utilisation de la suite protocolaire TCP/IP standard.

A. Principes architecturaux

  • RDMA sur TCP/IP : iWARP est un protocole qui implémente le RDMA sur des réseaux IP standard. Contrairement à RoCE, qui utilise UDP, iWARP est construit sur des protocoles de transport fiables comme TCP et SCTP.
  • Composants clés : Le fonctionnement d'iWARP repose sur plusieurs composants. Le Direct Data Placement Protocol (DDP) permet une transmission zéro-copie en plaçant les données directement dans la mémoire d'une application. Le Remote Direct Memory Access Protocol (RDMAP) fournit les services pour les opérations de lecture et d'écriture RDMA. Une couche d'adaptation spécifique, le tramage Marker PDU Aligned (MPA), est nécessaire pour permettre le DDP sur TCP.
  • Fiabilité : Une caractéristique unique d'iWARP est que sa fiabilité est fournie par le protocole TCP sous-jacent. C'est différent de RoCE v2, qui utilise UDP et nécessite des mécanismes externes comme le Data Center Bridging (DCB) pour la fiabilité. Par conséquent, iWARP ne prend en charge que la communication fiable et connectée.

B. Profil de performance

  • Latence et débit comparatifs : Bien qu'iWARP ait une latence plus faible que le TCP/IP traditionnel, ses performances sont généralement inférieures à celles de RoCE. En 2011, la latence HCA iWARP la plus basse était de 3 microsecondes, tandis que les HCA RoCE atteignaient 1,3 microseconde. Les bancs d'essai montrent constamment que RoCE livre les messages beaucoup plus rapidement qu'iWARP, avec un débit plus de 2 fois supérieur à 40GbE et 5 fois supérieur à 10GbE.
  • Déchargement CPU : Comme d'autres protocoles RDMA, iWARP minimise la charge du CPU en permettant des transferts de mémoire directs. Il peut utiliser des moteurs de déchargement TCP (TOE) avec du matériel RDMA pour obtenir des résultats zéro-copie et réduire davantage l'implication du CPU.

C. Infrastructure et gestion

  • Compatibilité avec l'Ethernet standard : Un avantage majeur d'iWARP est sa capacité à fonctionner sur une infrastructure Ethernet standard avec des changements minimes au réseau existant. Cela permet aux organisations de tirer parti de leurs investissements actuels.
  • Exigences matérielles : Malgré sa compatibilité avec les commutateurs Ethernet standard, iWARP nécessite toujours des cartes réseau compatibles iWARP aux points d'extrémité.
  • Aspects d'intégration : iWARP est intégré dans les principaux systèmes d'exploitation comme Microsoft Windows Server et les noyaux Linux modernes. Cela prend en charge des applications comme SMB Direct, iSCSI Extensions for RDMA (iSER) et Network File System over RDMA (NFS over RDMA).
  • Défis de gestion : La gestion du trafic iWARP peut être difficile. Il partage l'espace de port de TCP, ce qui complique la gestion des flux et rend difficile l'identification du trafic RDMA. Globalement, iWARP est considéré comme plus difficile à gérer que RoCE.

D. Pertinence sur le marché

  • Adoption limitée : iWARP est une implémentation RDMA « peu commune » ou « moins couramment utilisée » par rapport à InfiniBand et RoCE v2. Ses solutions ont eu un « succès limité » en raison des défis liés à l'implémentation et au déploiement.
  • Le paradoxe de la dépendance à TCP : Le choix de conception d'iWARP de superposer le RDMA sur TCP offre une fiabilité et une compatibilité intégrées mais, paradoxalement, l'empêche de réaliser pleinement les avantages fondamentaux du RDMA. La surcharge inhérente du protocole TCP, même avec un déchargement matériel, semble empêcher iWARP d'atteindre la latence ultra-faible et le débit élevé d'InfiniBand ou de RoCE. Ce compromis de performance a conduit à son adoption limitée sur le marché.

VI. Analyse comparative : RoCE v2 vs. InfiniBand vs. iWARP vs. Ethernet standard

Une comparaison détaillée des métriques de performance, d'infrastructure et opérationnelles est essentielle pour choisir la bonne interconnexion haute performance.

A. Bancs d'essai de performance

La performance de ces interconnexions diffère considérablement, en particulier en termes de latence, de bande passante et d'utilisation du CPU.

  • Latence :
    • InfiniBand : Offre la latence la plus faible. La latence de port à port de commutateur est d'environ 100 nanosecondes, tandis que la latence de l'adaptateur est aussi basse que 0,5 à 1,3 microseconde. La latence au niveau de la couche applicative peut être aussi faible que 2 microsecondes.
    • RoCE v2 : Fournit une latence ultra-faible. La latence des commutateurs Ethernet est d'environ 230 nanosecondes, tandis que la latence des HCA peut être aussi basse que 1,3 microseconde. La latence au niveau de la couche applicative est généralement d'environ 5 microsecondes.
    • iWARP : A une latence plus élevée que RoCE, avec une latence HCA rapportée autour de 3 microsecondes (données de 2011). Ses performances sont constamment inférieures à celles de RoCE.
    • TCP/IP standard : A la latence la plus élevée, avec une latence unidirectionnelle de 10 à 55 millisecondes. La latence au niveau de la couche applicative est généralement d'environ 50 microsecondes.
  • Bande passante :
    • InfiniBand : Prend en charge une très large bande passante. Les versions modernes comme NDR offrent jusqu'à 400 Gbit/s par port, et XDR atteint jusqu'à 800 Gbit/s. Le futur GDR est prévu pour atteindre 1,6 Tbit/s.
    • RoCE v2 : Capable d'une bande passante élevée, supportant jusqu'à 400 Gbit/s par port.
    • iWARP : A généralement un débit inférieur à celui de RoCE.
    • TCP/IP standard : Le débit est souvent limité par la surcharge du protocole et les retransmissions, ce qui rend difficile l'utilisation efficace des liaisons à large bande passante.
  • Déchargement CPU :
    • InfiniBand, RoCE v2, iWARP : Les trois technologies RDMA déchargent une part importante du travail du CPU en contournant le système d'exploitation, libérant ainsi des ressources CPU pour d'autres tâches.
    • TCP/IP standard : Entraîne une charge CPU élevée car le noyau est fortement impliqué dans le traitement des données.
  • Mécanisme sans perte :
    • InfiniBand : Dispose d'un contrôle de flux natif basé sur le crédit au niveau matériel, qui garantit une communication sans perte.
    • RoCE v2 : Repose sur une configuration Ethernet sans perte, utilisant des fonctionnalités de Data Center Bridging (DCB) comme PFC et ECN. Il dispose également d'un mécanisme de livraison fiable de bout en bout avec des retransmissions matérielles.
    • iWARP : Utilise le transport fiable intégré de TCP pour l'intégrité des données.
    • TCP/IP standard : Utilise un modèle de livraison au mieux (best-effort), s'appuyant sur les retransmissions aux couches supérieures pour assurer la fiabilité, ce qui ajoute de la latence.

Le tableau suivant résume les caractéristiques de performance :

Caractéristique InfiniBand RoCE v2 iWARP Ethernet/TCP/IP standard
Technologie de base RDMA natif RDMA sur Ethernet (UDP/IP) RDMA sur Ethernet (TCP/IP) Protocole en couches traditionnel
Latence applicative typique (µs) 2 5 >3 (HCA 2011) 50
Latence de port à port de commutateur (ns) 100 230 N/A (repose sur Ethernet) Généralement plus élevée, variable
Bande passante max (Gbit/s par port/liaison) 400 (NDR), 800 (XDR), 1.6T (GDR) 400 Généralement inférieure à RoCE 400+ (mais limitée par la surcharge du protocole)
Surcharge CPU Proche de zéro Très faible Faible Élevée
Mécanisme sans perte Contrôle de flux natif basé sur le crédit Nécessite un Ethernet sans perte (PFC, ECN) Transport fiable de TCP Au mieux (best-effort), dépend des retransmissions
Routabilité (L2/L3) L3 (via le Subnet Manager) L3 (RoCE routable) L3 L3 (Routage IP standard)

B. Infrastructure et écosystème

  • Dépendances matérielles :
    • InfiniBand : Nécessite un ensemble complet de matériel spécialisé, y compris des HCA InfiniBand, des commutateurs et des câbles propriétaires.
    • RoCE v2 : Nécessite des HCA compatibles RoCE mais fonctionne sur des commutateurs et des câbles Ethernet standard, permettant l'intégration avec les réseaux existants.
    • iWARP : Nécessite des cartes réseau compatibles iWARP mais peut utiliser des commutateurs Ethernet standard.
    • Ethernet standard : Utilise des cartes réseau (NIC) et des commutateurs Ethernet largement disponibles et standardisés.
  • Verrouillage propriétaire (vendor lock-in) :
    • InfiniBand : L'écosystème est limité et dominé par Mellanox (NVIDIA), ce qui peut soulever des préoccupations de verrouillage propriétaire.
    • RoCE v2 : Bénéficie d'un vaste écosystème Ethernet compétitif avec plusieurs fournisseurs. Certains proposent des cartes réseau « Universal RDMA » prenant en charge à la fois RoCE et iWARP, réduisant ainsi le verrouillage.
    • iWARP : Bénéficie également du large écosystème Ethernet, avec le soutien de fournisseurs comme Intel et Chelsio.
  • Interopérabilité :
    • InfiniBand : En tant que norme propriétaire, tous les composants doivent adhérer aux spécifications de l'IBTA pour garantir leur fonctionnement conjoint.
    • RoCE v2 : Sa base sur l'Ethernet standard permet une plus grande interopérabilité et une intégration plus facile avec les réseaux existants.
    • iWARP : Basé sur les RFC standard de l'IETF pour TCP/IP, assurant une haute compatibilité au sein des réseaux IP standard.

C. Rentabilité

  • Investissement initial :
    • InfiniBand : Nécessite généralement un investissement initial plus élevé en raison du matériel spécialisé et des licences. Pour les grands clusters d'IA, les commutateurs InfiniBand peuvent être nettement plus chers que les commutateurs RoCE.
    • RoCE v2 : Souvent une option plus rentable car il peut s'intégrer à l'Ethernet existant, réduisant les coûts de nouveau matériel. Les économies sur les commutateurs pour les grands clusters d'IA peuvent être substantielles (de 49 % à 70 % par rapport à InfiniBand).
    • iWARP : Utilise des commutateurs Ethernet standard mais nécessite des adaptateurs spécialisés, ce qui peut encore représenter un coût notable.
    • Ethernet standard : Généralement l'option la moins chère en raison de son matériel standardisé.
  • Coût total de possession (TCO) :
    • InfiniBand : A tendance à avoir un TCO plus élevé en raison du matériel spécialisé, de la maintenance et du besoin de formation du personnel sur une technologie propriétaire.
    • RoCE v2 : Peut avoir un TCO plus faible, mais cela est conditionnel. La complexité de la configuration et de la maintenance d'une fabric Ethernet sans perte peut augmenter considérablement les coûts opérationnels. Bien que les coûts matériels initiaux puissent être plus bas, les connaissances spécialisées et les efforts requis pour la conception, le dépannage et la maintenance peuvent contrebalancer ces économies. Par conséquent, la « rentabilité » dépend à la fois du prix du matériel et de l'expertise et de la charge de gestion de l'organisation.
    • iWARP : Les défis d'intégration et de gestion peuvent affecter son TCO global.

Le tableau suivant fournit un aperçu comparatif des considérations d'infrastructure et de coût :

Caractéristique InfiniBand RoCE v2 iWARP Ethernet/TCP/IP standard
Matériel réseau requis NIC IB dédiées, commutateurs IB, câbles IB NIC compatibles RoCE, commutateurs/câbles Ethernet standard NIC compatibles iWARP, commutateurs/câbles Ethernet standard NIC Ethernet standard, commutateurs/câbles Ethernet
Compatibilité réseau Propriétaire (norme IBTA) Ethernet standard (IEEE) Ethernet standard (RFC de l'IETF) Ethernet standard (IEEE)
Complexité de gestion Difficile (SM spécialisé) Difficile (config. Ethernet sans perte) Plus difficile que RoCE Facile
Coût matériel initial (relatif) Élevé Modéré (tire parti de l'existant) Modéré (NIC spécialisées) Faible
Coût total de possession (relatif) Plus élevé Plus faible (conditionnel à la gestion) Variable (défis d'intégration) Le plus bas
Écosystème de fournisseurs Limité (NVIDIA/Mellanox dominant) Large (multiples fournisseurs Ethernet) Large (multiples fournisseurs Ethernet) Très large

D. Évolutivité et flexibilité

  • Capacités de routage :
    • InfiniBand : Utilise une fabric commutée avec un routage géré de manière centralisée par un gestionnaire de sous-réseau (SM). Il est très évolutif, supportant des clusters de plus de 100 000 nœuds.
    • RoCE v2 : Son encapsulation UDP/IP lui permet d'être routé sur des réseaux IP de couche 3, le rendant évolutif à travers de grands réseaux et des environnements cloud. Il prend également en charge l'ECMP pour un équilibrage de charge efficace.
    • iWARP : Est routable sur les réseaux IP.
    • Ethernet standard : Très évolutif et flexible, mais peut nécessiter des configurations avancées comme des architectures spine-leaf pour une efficacité de niveau HPC.
  • Topologies de réseau :
    • InfiniBand : Optimisé pour les clusters HPC/IA, prenant en charge des topologies haute performance comme Fat Tree, Dragonfly+ et Torus multidimensionnel.
    • RoCE v2 : Son routage basé sur IP le rend adaptable à presque toutes les topologies de réseau.
    • Ethernet standard : Prend en charge une large gamme de topologies, y compris en étoile et maillée.

E. Fiabilité et contrôle de la congestion

  • Fiabilité :
    • InfiniBand : Fournit une fiabilité native au niveau matériel avec son contrôle de flux basé sur le crédit, garantissant une communication sans perte.
    • RoCE v2 : Repose sur une configuration Ethernet sans perte utilisant PFC et ETS. Il inclut également un mécanisme de livraison fiable de bout en bout avec retransmission de paquets basée sur le matériel.
    • iWARP : Bénéficie de la fiabilité inhérente de TCP, qui fournit la correction d'erreurs et les retransmissions.
    • TCP/IP standard : Se concentre sur la fiabilité par le biais de retransmissions, ce qui peut ajouter une latence significative et réduire le débit.
  • Contrôle de la congestion :
    • InfiniBand : Définit ses propres mécanismes de contrôle de la congestion basés sur le marquage FECN/BECN.
    • RoCE v2 : Implémente un protocole de contrôle de la congestion utilisant les bits IP ECN et les paquets de notification de congestion (CNP). Des pratiques de l'industrie comme le DCQCN sont également utilisées.
    • iWARP : Repose sur les algorithmes de contrôle de la congestion établis de TCP.

F. Adéquation applicative

  • InfiniBand : Le choix idéal pour les environnements nécessitant le débit de données le plus élevé et la latence la plus faible. Cela inclut la recherche scientifique, la modélisation financière, les clusters HPC à grande échelle et les charges de travail d'entraînement d'IA/ML les plus exigeantes.
  • RoCE v2 : Privilégié par les entreprises souhaitant utiliser leur infrastructure Ethernet existante tout en ayant besoin de hautes performances. Il est bien adapté pour les réseaux de stockage, l'analyse en temps réel et les services cloud, offrant un équilibre entre performance et coût.
  • iWARP : Peut être envisagé pour des applications de niche où l'infrastructure TCP/IP existante est une exigence stricte et où la latence ultra-faible n'est pas la priorité absolue. Il convient aux applications comme NVMeoF, iSER, SMB Direct et NFS sur RDMA, ou comme option à faible coût pour les environnements de test.
  • Ethernet/TCP/IP standard : Reste le meilleur choix pour les réseaux à usage général, tels que les LAN d'entreprise et l'infrastructure cloud où la performance extrême HPC/IA n'est pas l'objectif principal.
  • Le trilemme performance-coût-complexité : Cette analyse révèle un compromis fondamental lors du choix d'une interconnexion : un trilemme entre la performance, le coût et la complexité. InfiniBand offre des performances de pointe et une fiabilité native, mais à un coût plus élevé. RoCE v2 fournit des performances proches de celles d'InfiniBand sur Ethernet, réduisant potentiellement les coûts matériels mais ajoutant une complexité de configuration significative. iWARP offre le RDMA sur TCP mais avec des performances inférieures. L'Ethernet standard est rentable mais manque de performance pour les charges de travail exigeantes. Il n'y a pas de solution « meilleure » unique ; le bon choix nécessite d'équilibrer ces trois facteurs en fonction des besoins et des capacités spécifiques.

Le tableau suivant présente l'adéquation applicative pour chaque technologie :

Technologie Cas d'usage principaux Idéal pour Moins adapté pour
InfiniBand HPC, entraînement IA/ML, analyse de mégadonnées, services financiers (arbitrage) Environnements exigeant la latence la plus faible, la bande passante la plus élevée et des garanties natives sans perte Réseaux d'entreprise généraux sensibles aux coûts, environnements sans expertise informatique spécialisée
RoCE v2 Centres de données, services cloud, réseaux de stockage, analyse en temps réel, inférence IA/ML Organisations tirant parti de l'infrastructure Ethernet existante pour de hautes performances ; équilibre entre coût et performance Environnements où les garanties natives sans perte sont non négociables sans une expertise approfondie en configuration
iWARP NVMeoF, iSER, SMB Direct, NFS sur RDMA, environnements de test/développement Applications spécifiques nécessitant RDMA sur TCP/IP existant, où la performance de pointe absolue n'est pas critique Clusters HPC/IA à grande échelle, applications temps réel sensibles à la latence
Ethernet/TCP/IP standard Réseaux d'entreprise généraux, LAN, connectivité Internet, infrastructure cloud Réseaux polyvalents, rentables et flexibles pour un usage général Calcul haute performance, entraînement IA/ML, et autres charges de travail sensibles à la latence et gourmandes en CPU

VII. Interconnexions haute performance émergentes et tendances futures

Le paysage des réseaux haute performance est en constante évolution, tiré par les charges de travail gourmandes en données et le besoin d'une plus grande efficacité. Au-delà des technologies RDMA établies, de nouvelles interconnexions et tendances façonnent l'avenir des centres de données.

A. Compute Express Link (CXL)

CXL est une interconnexion moderne construite sur la couche physique PCIe, conçue pour les systèmes informatiques généraux. Son objectif principal est de permettre une communication rapide et transparente entre les CPU et les accélérateurs comme les GPU et les FPGA.

Les caractéristiques clés de CXL incluent un transfert de données à grande vitesse, une large compatibilité et un partage de mémoire efficace grâce à la cohérence de cache. Il prend en charge trois types d'appareils (pour les accélérateurs, les appareils à cohérence de cache et les extenseurs de mémoire) et des topologies flexibles. CXL/PCIe Gen5 offre un débit de pointe de 512 Gbit/s avec une latence d'environ 500 nanosecondes. Bien qu'InfiniBand ait une latence plus faible (environ 100 nanosecondes), CXL est supérieur pour l'accès mémoire à faible latence où la cohérence de cache est essentielle.

Un développement majeur a été la fusion des consortiums Gen-Z et CXL en 2022, ce qui positionne CXL comme la seule norme de l'industrie pour cette classe d'interconnexions axées sur la mémoire.

CXL représente un passage des réseaux traditionnels de nœud à nœud (comme RoCE et InfiniBand) vers la cohérence de la mémoire et la désagrégation des ressources. Cela signifie que pour certaines charges de travail, CXL pourrait devenir l'interconnexion principale, complétant ou réduisant le besoin de fabrics réseau traditionnelles.

B. NVLink

NVLink est l'interconnexion propriétaire à large bande passante et à faible latence de NVIDIA, conçue pour la communication directe GPU à GPU et GPU à CPU au sein de ses plateformes de calcul accéléré.

NVLink est un élément clé des solutions de NVIDIA pour l'IA et le HPC, telles que ses architectures GB200 et GB300. Il est crucial pour faire évoluer l'entraînement des modèles d'IA en fournissant des transferts de données extrêmement rapides entre les GPU.

NVLink montre une tendance vers l'intégration verticale et la performance spécialisée. Sa nature propriétaire contraste avec les normes ouvertes comme RoCE ou InfiniBand. Cette conception maximise les performances au sein de la pile matérielle d'un seul fournisseur. Tandis qu'InfiniBand et RoCE gèrent les réseaux généraux entre les nœuds, NVLink optimise la communication au sein et entre les systèmes GPU, créant une architecture d'interconnexion à plusieurs niveaux où différentes technologies répondent à des besoins différents.

C. Vitesses futures de l'Ethernet

L'Ethernet a évolué de 10 Mbit/s à 400 Gbit/s, et le développement se poursuit avec les normes 800GbE et 1,6TbE à l'horizon. Ces vitesses plus rapides seront essentielles pour les applications de nouvelle génération comme l'informatique quantique, l'IA avancée et les technologies immersives.

L'augmentation continue des vitesses Ethernet profite directement à RoCE. Parce que RoCE est construit sur Ethernet, il bénéficie automatiquement de ces avancées, ce qui l'aide à rester compétitif face à InfiniBand. La croissance des services cloud pousse déjà au déploiement de 200GbE et 400GbE, avec 800GbE et 1,6TbE à venir.

La pertinence continue de l'Ethernet et de RoCE sont étroitement liées. À mesure que les vitesses Ethernet progressent, RoCE devient un concurrent encore plus solide pour les centres de données haute performance, en particulier pour les organisations qui souhaitent tirer parti de leurs investissements Ethernet existants et éviter les écosystèmes propriétaires.

D. Informatique désagrégée et photonique

  • Informatique désagrégée : Cette nouvelle approche vise à améliorer l'efficacité des centres de données en découplant des ressources comme le calcul, le stockage et la mémoire des serveurs traditionnels. Ces ressources sont ensuite réassemblées en pools flexibles connectés par des réseaux avancés. Un résultat clé est que la communication qui se produisait autrefois à l'intérieur d'un serveur traverse maintenant le réseau, augmentant considérablement la charge et rendant la latence ultra-faible essentielle. Cette tendance renforce le besoin d'interconnexions haute performance comme RoCE et InfiniBand et stimule le développement de nouvelles comme CXL.
  • La photonique dans les réseaux de centres de données : La photonique sur silicium intègre des composants optiques sur des puces de silicium, permettant des interconnexions optiques à grande vitesse et à faible consommation d'énergie. Cette technologie offre des taux de transfert de données beaucoup plus rapides (plus de 100 Gbit/s), une latence plus faible et une meilleure efficacité énergétique que le cuivre traditionnel. Elle devient essentielle pour répondre aux demandes croissantes de trafic dans les centres de données et permettre la prochaine génération d'Ethernet à grande vitesse.

La relation entre ces tendances est symbiotique. Les architectures désagrégées nécessitent des réseaux avancés, que des interconnexions comme RoCE, InfiniBand et CXL fournissent. À leur tour, atteindre les vitesses nécessaires pour ces interconnexions, en particulier pour les futures normes 800GbE et 1,6TbE, dépendra de technologies comme la photonique sur silicium.

VIII. Recommandations et conclusion

Choisir une interconnexion haute performance est une décision stratégique essentielle qui doit s'aligner sur les besoins spécifiques, le budget, l'infrastructure et la vision à long terme d'une organisation.

  • Pour une performance brute maximale et des applications HPC/IA critiques : InfiniBand est la référence absolue. Son RDMA natif, son contrôle de flux basé sur le crédit et sa conception spécialisée offrent la latence la plus faible et le débit le plus élevé avec une performance sans perte garantie. Les organisations disposant du budget et de l'expertise devraient choisir InfiniBand pour les clusters à grande échelle où chaque microseconde compte.
  • Pour de hautes performances avec une bonne rentabilité et une intégration Ethernet : RoCE v2 est une alternative solide et de plus en plus populaire. Il offre des gains de performance majeurs par rapport à TCP/IP et peut approcher les performances d'InfiniBand en utilisant l'infrastructure Ethernet existante. Il est idéal pour les organisations qui modernisent leurs centres de données sans une refonte complète. Cependant, ce choix nécessite un engagement à configurer et gérer soigneusement une fabric Ethernet sans perte.
  • Pour des applications de niche ou des environnements RDMA hérités sur TCP : iWARP peut convenir dans des cas spécifiques, en particulier lorsque l'utilisation de l'infrastructure TCP/IP existante est impérative et que la performance de pointe n'est pas l'objectif principal. Cependant, ses performances inférieures et sa complexité de gestion plus élevée limitent son utilisation dans les déploiements haute performance modernes.
  • Pour les réseaux à usage général : L'Ethernet/TCP/IP standard reste le choix le plus courant et le plus rentable pour les environnements sans exigences de performance extrêmes. Sa facilité d'utilisation et son matériel standardisé le rendent parfait pour les réseaux d'entreprise généraux, les LAN et l'infrastructure cloud standard.
  • Prendre en compte les technologies émergentes pour préparer l'avenir : Les organisations devraient suivre le développement de CXL pour les architectures centrées sur la mémoire et désagrégées, car il complète les fabrics réseau traditionnelles en optimisant la mise en commun des ressources. De même, NVLink est essentiel pour optimiser la communication au sein des systèmes riches en GPU de NVIDIA. Ces technologies montrent une diversification des interconnexions pour différentes couches de la hiérarchie de calcul. De plus, le développement de l'Ethernet 800GbE et 1,6TbE, ainsi que les avancées en photonique, continueront de faire de RoCE une option encore plus puissante.

En conclusion, le domaine des réseaux haute performance est complexe, tiré par les exigences de l'IA, du HPC et le passage à l'informatique désagrégée. Alors qu'InfiniBand domine en termes de performance absolue pour les environnements spécialisés, RoCE v2 offre une alternative puissante et flexible qui fait le pont entre les avantages du RDMA et l'omniprésence de l'Ethernet. L'émergence de CXL et NVLink indique une diversification stratégique des interconnexions, optimisant différentes couches de communication. La solution optimale sera toujours un équilibre stratégique entre les exigences de performance, le coût, l'infrastructure existante et une vision tournée vers l'avenir.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *