I. Streszczenie menedżerskie
Nowoczesne centra danych muszą obsługiwać wymagające obciążenia, takie jak obliczenia o wysokiej wydajności (HPC), sztuczna inteligencja/uczenie maszynowe (AI/ML) i analityka Big Data. Aplikacje te wymagają ultraniskich opóźnień, dużej przepustowości i minimalnego zużycia procesora. Tradycyjne protokoły sieciowe, takie jak TCP/IP, nie są w stanie sprostać tym wymaganiom ze względu na duży narzut i opóźnienia.
Technologią kluczową, która umożliwia tworzenie wysokowydajnych połączeń międzykomputerowych, jest zdalny bezpośredni dostęp do pamięci (RDMA). RDMA pozwala komputerom w sieci na przesyłanie danych bezpośrednio między ich pamięciami (memory-to-memory), z pominięciem systemów operacyjnych i procesorów. Proces ten radykalnie zmniejsza opóźnienia i obciążenie CPU.
- InfiniBand to specjalnie zaprojektowana, prawnie zastrzeżona sieć szkieletowa (fabric), stworzona z myślą o najwyższej możliwej wydajności i natywnej pracy bezstratnej.
- RoCE v2 (RDMA over Converged Ethernet) przenosi korzyści RDMA na standardową sieć Ethernet, oferując opcję routowalną i bardziej opłacalną, ale wymagającą specjalnej konfiguracji w celu zapewnienia bezstratności.
- iWARP to kolejne rozwiązanie RDMA over Ethernet oparte na protokole TCP, ale jest ono mniej popularne i oferuje niższą wydajność niż RoCE v2.
Wybór odpowiedniego połączenia jest decyzją strategiczną, która zależy od potrzeb wydajnościowych, budżetu, istniejącej infrastruktury i celów skalowalności. Niniejszy raport analizuje te technologie, porównuje je ze standardowym Ethernetem/TCP/IP i bada nowe alternatywy, takie jak CXL i NVLink, aby pomóc w podjęciu tej kluczowej decyzji.
II. Wprowadzenie do sieci o wysokiej wydajności i RDMA
Współczesny świat cyfrowy charakteryzuje się wykładniczym wzrostem liczby aplikacji intensywnie wykorzystujących dane, takich jak obliczenia o wysokiej wydajności (HPC), sztuczna inteligencja/uczenie maszynowe (AI/ML) i analityka Big Data. Obciążenia te muszą szybko i wydajnie przenosić ogromne zbiory danych między węzłami obliczeniowymi a pamięcią masową. Na przykład aplikacje AI są bardzo wrażliwe na integralność danych i wymagają sieci bezstratnych, w których utrata jednego komunikatu mogłaby zniweczyć cały proces uczenia. Wysoka przepustowość ruchu jest również niezbędna, aby aplikacje te mogły efektywnie przetwarzać dane.
Ograniczenia tradycyjnego Ethernetu TCP/IP w zastosowaniach o wysokiej wydajności
Choć tradycyjny Ethernet TCP/IP jest niezawodny w ogólnych zastosowaniach sieciowych, ma poważne ograniczenia w przypadku aplikacji o wysokiej wydajności:
- Wysokie opóźnienia i obciążenie procesora: Architektura TCP/IP przesyła dane przez wiele warstw oprogramowania w jądrze systemu operacyjnego, co wymaga znacznego zaangażowania procesora. Proces ten wprowadza spore opóźnienia (zazwyczaj dziesiątki mikrosekund) i mocno obciąża CPU. Dla aplikacji wrażliwych na opóźnienia staje się to poważnym wąskim gardłem, ponieważ procesor poświęca czas na zarządzanie ruchem sieciowym zamiast na wykonywanie aplikacji. Ten „podatek od CPU”, wynikający ze zmiany kontekstu i kopiowania danych, jest głównym powodem wdrażania technologii RDMA, które odciążają procesor od obsługi sieci, uwalniając go do zadań aplikacyjnych.
- Ograniczenia przepustowości: Kilka czynników ogranicza efektywną przepustowość TCP, w tym rozmiar okna transmisyjnego, rozmiar segmentu i utrata pakietów. Standardowy rozmiar okna TCP (często ograniczony do 65 535 bajtów) może uniemożliwić pełne wykorzystanie łącz o dużej przepustowości, zwłaszcza w sieciach o wyższych opóźnieniach. Dodatkowo, główny mechanizm niezawodności TCP — retransmisja pakietów — wprowadza opóźnienia i zużywa dodatkową przepustowość, co negatywnie wpływa na wydajność w zatłoczonych lub stratnych sieciach.
- Wyzwania związane ze skalowalnością: Chociaż TCP/IP dobrze skaluje się w dużych sieciach, jego projekt stawia na pierwszym miejscu ogólną niezawodność, a nie surową wydajność. To sprawia, że jest mniej skuteczny w scenariuszach wymagających ekstremalnej przepustowości i minimalnych opóźnień, takich jak wielkoskalowe klastry HPC czy wnioskowanie AI w czasie rzeczywistym.
Podstawy zdalnego bezpośredniego dostępu do pamięci (RDMA) i jego główne korzyści
Zdalny bezpośredni dostęp do pamięci (RDMA) został opracowany w celu przezwyciężenia ograniczeń TCP/IP w środowiskach o wysokiej wydajności. Jego główne korzyści wynikają z ominięcia procesora i systemu operacyjnego podczas transferu danych:
- Bezpośredni dostęp do pamięci (Zero-Copy): RDMA przesyła dane bezpośrednio z pamięci jednego komputera do pamięci drugiego, bez angażowania procesora czy systemu operacyjnego któregokolwiek z systemów. To podejście „zero-copy” eliminuje pośrednie bufory danych i zmiany kontekstu, które są głównymi źródłami narzutu w tradycyjnych sieciach.
- Zmniejszone opóźnienia i obciążenie procesora: Omijając CPU i system operacyjny, RDMA drastycznie skraca opóźnienia komunikacyjne i uwalnia cykle procesora. Prowadzi to bezpośrednio do szybszych obliczeń i lepszego przetwarzania danych w czasie rzeczywistym. Na przykład opóźnienie aplikacji może spaść z około 50 mikrosekund przy użyciu TCP/IP do zaledwie 2-5 mikrosekund z RDMA.
- Wyższe wykorzystanie przepustowości: Wydajna ścieżka danych i zmniejszony narzut RDMA pozwalają aplikacjom lepiej wykorzystywać dostępną przepustowość sieci, co skutkuje wyższą efektywną przepustowością.
- Kluczowe implementacje: Główne technologie RDMA używane obecnie to InfiniBand, RoCE (wersje 1 i 2) oraz iWARP.
III. RoCE v2: RDMA over Converged Ethernet
RoCE v2 stanowi duży krok naprzód w dziedzinie sieci o wysokiej wydajności, rozszerzając zalety RDMA na szeroko stosowany ekosystem Ethernet.
A. Zasady architektury
- Ewolucja z RoCE v1: RoCE v1 był protokołem warstwy 2 (Ethertype 0x8915), co ograniczało go do jednej domeny rozgłoszeniowej Ethernet i zmniejszało jego skalowalność. RoCE v2 rozwiązuje ten problem, działając w warstwie internetowej. Kapsułkuje ruch RDMA w pakietach UDP/IP (używając portu docelowego UDP 4791), co czyni go routowalnym w sieciach IP warstwy 3. Ta routowalność jest kluczowym ulepszeniem, pozwalającym na stosowanie RoCE v2 w wielkoskalowych centrach danych i środowiskach chmurowych.
- Integracja RDMA over Ethernet: RoCE zapewnia metodę wykonywania RDMA w standardowej sieci Ethernet. Skutecznie zastępuje warstwę sieciową InfiniBand nagłówkami IP i UDP, zachowując jednocześnie podstawową warstwę transportową InfiniBand i protokół RDMA. Taka konstrukcja pozwala RoCE wykorzystać istniejącą infrastrukturę Ethernet.
- Format pakietu: Pakiet RoCE v2 zawiera nagłówek IP i nagłówek UDP, które kapsułkują protokół transportowy RDMA. Chociaż UDP nie gwarantuje kolejności pakietów, standard RoCE v2 wymaga, aby pakiety z tym samym portem źródłowym i adresem docelowym nie były przestawiane.
- Kompromis „najlepsze z obu światów”: Projekt RoCE v2 to strategiczny kompromis, mający na celu dostarczenie wysokiej wydajności RDMA na elastycznej, opłacalnej i wszechobecnej platformie Ethernet. Chociaż podejście to oferuje szeroką kompatybilność, stwarza kluczowe wyzwanie: zapewnienie bezstratnej wydajności, której potrzebuje RDMA, w sieci Ethernet, która jest z natury stratna.
B. Profil wydajności
- Opóźnienie: Karty sieciowe (HCA) RoCE mogą osiągać bardzo niskie opóźnienia, nawet 1,3 mikrosekundy. Na poziomie aplikacji RoCE zmniejsza opóźnienie do około 5 mikrosekund, co jest ogromną poprawą w porównaniu z 50 mikrosekundami typowymi dla TCP/IP. Chociaż InfiniBand oferuje nieco niższe natywne opóźnienie, wydajność RoCE jest doskonała dla aplikacji czasu rzeczywistego.
- Przepustowość: RoCE v2 obsługuje dużą przepustowość, z prędkościami do 400 Gb/s na port.
- Odciążenie procesora: Podobnie jak inne protokoły RDMA, RoCE omija procesor podczas transferu danych. To odciążenie uwalnia cenne zasoby CPU na zadania intensywne obliczeniowo, zamiast na przetwarzanie sieciowe.
- Wydajność bezstratna: Aby dorównać wydajności InfiniBand, RoCE zależy od bezstratnej sieci Ethernet. Zwykle osiąga się to poprzez wdrożenie funkcji Data Center Bridging (DCB), zwłaszcza Priority Flow Control (PFC) i Explicit Congestion Notification (ECN).
C. Infrastruktura i zarządzanie
- Wymagania sprzętowe/programowe: RoCE działa ze standardowym sprzętem Ethernet, takim jak przełączniki i kable, co pozwala organizacjom na wykorzystanie istniejącej infrastruktury. Wymaga jednak kart sieciowych (HCA) obsługujących RoCE w punktach końcowych. Wsparcie programowe jest dojrzałe, z implementacjami w Mellanox OFED 2.3+ i integracją z jądrem Linuksa v4.5+.
- Konfiguracja sieci bezstratnej: Chociaż RoCE używa standardowego Ethernetu, stworzenie bezstratnej sieci DCB może być bardziej złożone niż konfiguracja sieci InfiniBand. Każdy komponent, od punktów końcowych po przełączniki, musi być starannie skonfigurowany. Obejmuje to ustawienie Priority Flow Control (PFC), Enhanced Transmission Selection (ETS) i mechanizmów powiadamiania o zatorach. Aby działać w sieciach warstwy 3, te bezstratne właściwości muszą być utrzymane na routerach, często poprzez mapowanie ustawień priorytetów warstwy 2 na ustawienia QoS DSCP warstwy 3.
- Kwestie związane z zarządzaniem: RoCE można zarządzać za pomocą standardowych narzędzi Ethernet. Jednak zapewnienie stałej bezstratnej wydajności i zarządzanie zatorami w wielkoskalowych wdrożeniach RoCE v2 może być trudne i wymagać specjalistycznej wiedzy.
- Ukryty koszt „efektywności kosztowej”: RoCE jest często nazywany „opłacalnym”, ponieważ może wykorzystywać istniejącą infrastrukturę Ethernet, ale jest to uproszczenie. Osiągnięcie wydajności zbliżonej do InfiniBand wymaga idealnie skonfigurowanej bezstratnej sieci Ethernet. Złożoność konfiguracji funkcji Data Center Bridging (DCB), takich jak PFC i ECN, może być znacznie wyższa niż konfiguracja sieci InfiniBand. Ta złożoność prowadzi do wyższych kosztów operacyjnych związanych z projektowaniem sieci, rozwiązywaniem problemów i zarządzaniem, a także może wymagać droższych przełączników Ethernet. W rezultacie początkowe oszczędności na sprzęcie dzięki RoCE mogą zostać zniwelowane przez te wyższe koszty operacyjne. Dokładna analiza całkowitego kosztu posiadania (TCO) jest niezbędna do rzetelnego porównania.
D. Kluczowe zastosowania
RoCE v2 jest doskonałym rozwiązaniem dla wielu aplikacji w centrach danych i przedsiębiorstwach. Jest szczególnie dobrze przystosowany do środowisk, które potrzebują ultraniskich opóźnień i dużej przepustowości, takich jak obciążenia AI, handel wysokich częstotliwości i analityka w czasie rzeczywistym. Poprawia również wydajność aplikacji, które w dużym stopniu polegają na bazach danych lub operacjach wejścia/wyjścia na plikach. Dodatkowo RoCE v2 pomaga w zapewnieniu ciągłości działania i odzyskiwaniu danych po awarii, umożliwiając szybką i wydajną replikację danych. Jego szerokie zastosowanie w klastrach do trenowania AI podkreśla jego znaczenie we współczesnej informatyce.
IV. InfiniBand: Wyspecjalizowana sieć szkieletowa o wysokiej wydajności
InfiniBand to najwyższej klasy połączenie o wysokiej wydajności, zaprojektowane od podstaw w celu zapewnienia niezrównanej prędkości, minimalnych opóźnień i wysokiej niezawodności w wymagających środowiskach obliczeniowych.
A. Zasady architektury
- Natywne RDMA: InfiniBand został zbudowany z RDMA zintegrowanym w całym stosie protokołów, od warstwy fizycznej w górę. Taka od podstawowa konstrukcja zapewnia, że operacje RDMA są wysoce wydajne, tworząc bezpośrednie i chronione kanały danych między węzłami bez zaangażowania procesora.
- Topologia przełączanej sieci szkieletowej: InfiniBand wykorzystuje topologię przełączanej sieci szkieletowej (switched fabric) do bezpośrednich połączeń punkt-punkt między urządzeniami. Architektura obejmuje adaptery kanału hosta (HCA) na procesorach i adaptery kanału docelowego (TCA) na urządzeniach peryferyjnych, co pozwala na wydajną komunikację.
- Sterowanie przepływem oparte na kredytach: Kluczową cechą InfiniBand jest sterowanie przepływem oparte na kredytach. Ten algorytm na poziomie sprzętowym gwarantuje bezstratną komunikację, zapewniając, że nadawca wysyła dane tylko wtedy, gdy odbiorca ma wystarczającą ilość miejsca w buforze (kredytów), aby je przyjąć. Ta natywna niezawodność zapobiega utracie pakietów i odróżnia InfiniBand od technologii, które wymagają konfiguracji w wyższych warstwach, aby stać się bezstratnymi.
- Standardy prawnie zastrzeżone: InfiniBand działa zgodnie ze standardami prawnie zastrzeżonymi, zdefiniowanymi przez InfiniBand Trade Association (IBTA), założoną w 1999 roku. Ekosystem jest w dużej mierze zdominowany przez firmę NVIDIA (poprzez przejęcie Mellanox), wiodącego producenta adapterów i przełączników InfiniBand.
B. Profil wydajności
- Ultralekkie opóźnienia: InfiniBand konsekwentnie oferuje najniższe opóźnienia. Opóźnienia adapterów mogą wynosić zaledwie 0,5 mikrosekundy, a opóźnienie między portami przełącznika wynosi około 100 nanosekund — znacznie mniej niż 230 nanosekund porównywalnych przełączników Ethernet. Na poziomie aplikacji InfiniBand może osiągnąć opóźnienia rzędu 2 mikrosekund, w porównaniu do 50 mikrosekund w przypadku TCP/IP.
- Możliwości wysokiej przepustowości: InfiniBand obsługuje niezwykle wysokie szybkości transmisji danych. Nowoczesne wersje, takie jak HDR i NDR, oferują do 200 Gb/s i 400 Gb/s na linię. Zagregowane łącza mogą osiągać jeszcze wyższą przepustowość, dochodząc do 800 Gb/s (NDR), a nawet 1,6 Tb/s (XDR).
- Wydajność procesora: Kluczową zaletą InfiniBand jest jego zdolność do zapewniania ultraniskich opóźnień i niezwykle wysokiej przepustowości przy niemal zerowym zużyciu procesora. To odciążenie przetwarzania sieciowego jest krytyczną korzyścią dla obciążeń intensywnie wykorzystujących obliczenia.
- Wydajność z założenia a wydajność dzięki konfiguracji: InfiniBand i RoCE różnią się fundamentalnie w swoim podejściu. InfiniBand został zaprojektowany od podstaw z myślą o RDMA, a jego warstwy fizyczna i transportowa zostały zaprojektowane pod kątem niezawodności na poziomie sprzętowym, w tym natywnego algorytmu opartego na kredytach do komunikacji bezstratnej. W przeciwieństwie do tego, RoCE działa na standardowym Ethernecie i opiera się na konfiguracji funkcji takich jak Priority Flow Control (PFC) i Explicit Congestion Notification (ECN) w celu stworzenia sieci bezstratnej. Oznacza to, że InfiniBand zapewnia gwarantowaną wysoką wydajność od razu po wyjęciu z pudełka, podczas gdy wydajność RoCE zależy od jakości bazowej konfiguracji Ethernet.
C. Infrastruktura i zarządzanie
- Dedykowany sprzęt: InfiniBand wymaga specjalistycznego sprzętu, w tym dedykowanych adapterów kanału hosta (HCA), przełączników, routerów i prawnie zastrzeżonych kabli. Zazwyczaj skutkuje to wyższą inwestycją początkową w porównaniu z rozwiązaniami opartymi na Ethernecie.
- Scentralizowane zarządzanie: Sieci InfiniBand są zarządzane przez centralnego menedżera podsieci (Subnet Manager, SM), który oblicza i dystrybuuje tablice przekazywania oraz zarządza konfiguracjami, takimi jak partycje i jakość usług (QoS). To scentralizowane podejście może uprościć zarządzanie w dużych klastrach po początkowej konfiguracji.
- Specjalistyczna wiedza: Wdrażanie i utrzymanie sieci InfiniBand zwykle wymaga specjalistycznej wiedzy, co może zwiększyć koszty operacyjne i stworzyć stromą krzywą uczenia się dla personelu IT.
- Ekosystem: Ekosystem InfiniBand jest dojrzały, ale zdominowany przez NVIDIA/Mellanox.
D. Kluczowe zastosowania
InfiniBand jest standardem branżowym dla środowisk obliczeń o wysokiej wydajności (HPC) i najszybciej rozwijającym się połączeniem dla tych zastosowań. Jest to główna technologia rekomendowana przez IBTA. Jego ultraniskie opóźnienia i wysoka przepustowość są niezbędne dla wymagających obciążeń, takich jak trenowanie wielkoskalowych modeli AI/ML, analityka big data i masowe operacje bazodanowe. Ma również kluczowe znaczenie dla dużych symulacji (np. prognozowania pogody) i usług finansowych o wysokiej częstotliwości, gdzie szybkość i integralność danych są krytyczne. W czerwcu 2022 roku 62% ze 100 najlepszych superkomputerów na świecie używało InfiniBand.
V. iWARP: RDMA over Standard TCP/IP
iWARP (Internet Wide Area RDMA Protocol) to kolejna metoda implementacji RDMA, wyróżniająca się wykorzystaniem standardowego zestawu protokołów TCP/IP.
A. Zasady architektury
- RDMA over TCP/IP: iWARP to protokół, który implementuje RDMA w standardowych sieciach IP. W przeciwieństwie do RoCE, które używa UDP, iWARP jest zbudowany na niezawodnych protokołach transportowych, takich jak TCP i SCTP.
- Kluczowe komponenty: Działanie iWARP opiera się na kilku komponentach. Direct Data Placement Protocol (DDP) umożliwia transmisję zero-copy, umieszczając dane bezpośrednio w pamięci aplikacji. Remote Direct Memory Access Protocol (RDMAP) świadczy usługi dla operacji odczytu i zapisu RDMA. Specyficzna warstwa adaptacyjna, Marker PDU Aligned (MPA) framing, jest potrzebna, aby umożliwić DDP nad TCP.
- Niezawodność: Unikalną cechą iWARP jest to, że jego niezawodność jest zapewniana przez bazowy protokół TCP. Różni się to od RoCE v2, który używa UDP i wymaga zewnętrznych mechanizmów, takich jak Data Center Bridging (DCB), do zapewnienia niezawodności. W rezultacie iWARP obsługuje tylko niezawodną, połączeniową komunikację.
B. Profil wydajności
- Porównawcze opóźnienie i przepustowość: Chociaż iWARP ma niższe opóźnienie niż tradycyjny TCP/IP, jego wydajność jest ogólnie gorsza niż RoCE. W 2011 roku najniższe opóźnienie karty HCA iWARP wynosiło 3 mikrosekundy, podczas gdy karty HCA RoCE osiągały 1,3 mikrosekundy. Testy porównawcze konsekwentnie pokazują, że RoCE dostarcza komunikaty znacznie szybciej niż iWARP, z przepustowością ponad 2x wyższą przy 40GbE i 5x wyższą przy 10GbE.
- Odciążenie procesora: Podobnie jak inne protokoły RDMA, iWARP minimalizuje obciążenie procesora, umożliwiając bezpośrednie transfery pamięci. Może wykorzystywać silniki odciążające TCP (TCP Offload Engines, TOE) ze sprzętem RDMA, aby osiągnąć wyniki zero-copy i dodatkowo zmniejszyć zaangażowanie procesora.
C. Infrastruktura i zarządzanie
- Kompatybilność ze standardowym Ethernetem: Główną zaletą iWARP jest jego zdolność do działania w standardowej infrastrukturze Ethernet z minimalnymi zmianami w istniejącej sieci. Pozwala to organizacjom na wykorzystanie swoich obecnych inwestycji.
- Wymagania sprzętowe: Pomimo kompatybilności ze standardowymi przełącznikami Ethernet, iWARP nadal wymaga kart sieciowych obsługujących iWARP w punktach końcowych.
- Aspekty integracji: iWARP jest zintegrowany z głównymi systemami operacyjnymi, takimi jak Microsoft Windows Server i nowoczesne jądra Linuksa. Obsługuje to aplikacje takie jak SMB Direct, iSCSI Extensions for RDMA (iSER) oraz Network File System over RDMA (NFS over RDMA).
- Wyzwania związane z zarządzaniem: Zarządzanie ruchem iWARP może być trudne. Dzieli on przestrzeń portów TCP, co komplikuje zarządzanie przepływami i utrudnia identyfikację ruchu RDMA. Ogólnie rzecz biorąc, iWARP jest uważany za trudniejszy w zarządzaniu niż RoCE.
D. Znaczenie rynkowe
- Ograniczona adopcja: iWARP jest „rzadką” lub „mniej powszechnie stosowaną” implementacją RDMA w porównaniu z InfiniBand i RoCE v2. Jego rozwiązania odniosły „ograniczony sukces” z powodu wyzwań związanych z implementacją i wdrożeniem.
- Paradoks zależności od TCP: Wybór projektowy iWARP, polegający na warstwowaniu RDMA nad TCP, zapewnia wbudowaną niezawodność i kompatybilność, ale paradoksalnie uniemożliwia pełne osiągnięcie podstawowych korzyści RDMA. Nieodłączny narzut protokołu TCP, nawet przy odciążeniu sprzętowym, wydaje się powstrzymywać iWARP przed osiągnięciem ultraniskich opóźnień i wysokiej przepustowości InfiniBand czy RoCE. Ten kompromis wydajnościowy doprowadził do jego ograniczonej adopcji na rynku.
VI. Analiza porównawcza: RoCE v2 vs. InfiniBand vs. iWARP vs. Standardowy Ethernet
Szczegółowe porównanie wskaźników wydajności, infrastruktury i operacyjnych jest kluczowe dla wyboru odpowiedniego połączenia o wysokiej wydajności.
A. Testy wydajności
Wydajność tych połączeń znacznie się różni, zwłaszcza pod względem opóźnień, przepustowości i wykorzystania procesora.
- Opóźnienie:
- InfiniBand: Oferuje najniższe opóźnienie. Opóźnienie między portami przełącznika wynosi około 100 nanosekund, podczas gdy opóźnienie adaptera to zaledwie 0,5 do 1,3 mikrosekundy. Opóźnienie na poziomie aplikacji może wynosić nawet 2 mikrosekundy.
- RoCE v2: Zapewnia ultraniskie opóźnienie. Opóźnienie przełącznika Ethernet wynosi około 230 nanosekund, a opóźnienie HCA może wynosić zaledwie 1,3 mikrosekundy. Opóźnienie na poziomie aplikacji wynosi zwykle około 5 mikrosekund.
- iWARP: Ma wyższe opóźnienie niż RoCE, z opóźnieniem HCA raportowanym na poziomie około 3 mikrosekund (dane z 2011 r.). Konsekwentnie działa gorzej niż RoCE.
- Standardowy TCP/IP: Ma najwyższe opóźnienie, z opóźnieniem jednokierunkowym od 10 do 55 milisekund. Opóźnienie na poziomie aplikacji wynosi zwykle około 50 mikrosekund.
- Przepustowość:
- InfiniBand: Obsługuje bardzo wysoką przepustowość. Nowoczesne wersje, takie jak NDR, oferują do 400 Gb/s na port, a XDR osiąga do 800 Gb/s. Przyszły GDR ma osiągnąć 1,6 Tb/s.
- RoCE v2: Zdolny do wysokiej przepustowości, obsługujący do 400 Gb/s na port.
- iWARP: Ogólnie ma niższą przepustowość niż RoCE.
- Standardowy TCP/IP: Przepustowość jest często ograniczona przez narzut protokołu i retransmisje, co utrudnia efektywne wykorzystanie łącz o dużej przepustowości.
- Odciążenie procesora:
- InfiniBand, RoCE v2, iWARP: Wszystkie trzy technologie RDMA odciążają znaczną część pracy procesora, omijając system operacyjny, co uwalnia zasoby CPU na inne zadania.
- Standardowy TCP/IP: Powoduje duże obciążenie procesora, ponieważ jądro jest mocno zaangażowane w przetwarzanie danych.
- Mechanizm bezstratności:
- InfiniBand: Posiada natywne, sprzętowe sterowanie przepływem oparte na kredytach, które gwarantuje bezstratną komunikację.
- RoCE v2: Opiera się na bezstratnej konfiguracji Ethernet, wykorzystując funkcje Data Center Bridging (DCB), takie jak PFC i ECN. Posiada również mechanizm niezawodnego dostarczania end-to-end z retransmisjami sprzętowymi.
- iWARP: Wykorzystuje wbudowaną niezawodność protokołu TCP do zapewnienia integralności danych.
- Standardowy TCP/IP: Używa modelu dostarczania „best-effort”, polegając na retransmisjach w wyższych warstwach w celu zapewnienia niezawodności, co zwiększa opóźnienia.
Poniższa tabela podsumowuje charakterystykę wydajności:
| Cecha | InfiniBand | RoCE v2 | iWARP | Standardowy Ethernet/TCP/IP |
|---|---|---|---|---|
| Technologia podstawowa | Natywne RDMA | RDMA over Ethernet (UDP/IP) | RDMA over Ethernet (TCP/IP) | Tradycyjny protokół warstwowy |
| Typowe opóźnienie aplikacji (µs) | 2 | 5 | >3 (HCA 2011) | 50 |
| Opóźnienie port-port przełącznika (ns) | 100 | 230 | B/D (zależne od Ethernet) | Zazwyczaj wyższe, zmienne |
| Maks. przepustowość (Gb/s na port/łącze) | 400 (NDR), 800 (XDR), 1.6T (GDR) | 400 | Zazwyczaj niższa niż RoCE | 400+ (ale ograniczona narzutem protokołu) |
| Obciążenie CPU | Bliskie zeru | Bardzo niskie | Niskie | Wysokie |
| Mechanizm bezstratności | Natywne sterowanie przepływem oparte na kredytach | Wymaga bezstratnego Ethernetu (PFC, ECN) | Niezawodny transport TCP | Best-Effort, polega na retransmisjach |
| Routowalność (L2/L3) | L3 (przez Menedżera Podsieci) | L3 (Routowalny RoCE) | L3 | L3 (Standardowy routing IP) |
B. Infrastruktura i ekosystem
- Zależności sprzętowe:
- InfiniBand: Wymaga pełnego zestawu specjalistycznego sprzętu, w tym kart HCA InfiniBand, przełączników i prawnie zastrzeżonych kabli.
- RoCE v2: Wymaga kart HCA obsługujących RoCE, ale działa na standardowych przełącznikach i kablach Ethernet, co pozwala na integrację z istniejącymi sieciami.
- iWARP: Wymaga kart sieciowych obsługujących iWARP, ale może używać standardowych przełączników Ethernet.
- Standardowy Ethernet: Używa szeroko dostępnych, powszechnych kart sieciowych i przełączników Ethernet.
- Uzależnienie od dostawcy (vendor lock-in):
- InfiniBand: Ekosystem jest ograniczony i zdominowany przez Mellanox (NVIDIA), co może budzić obawy o uzależnienie od jednego dostawcy.
- RoCE v2: Korzysta z dużego i konkurencyjnego ekosystemu Ethernet z wieloma dostawcami. Niektórzy oferują karty sieciowe „Universal RDMA” obsługujące zarówno RoCE, jak i iWARP, co zmniejsza uzależnienie.
- iWARP: Również korzysta z szerokiego ekosystemu Ethernet, ze wsparciem od dostawców takich jak Intel i Chelsio.
- Interoperacyjność:
- InfiniBand: Jako standard prawnie zastrzeżony, wszystkie komponenty muszą być zgodne ze specyfikacjami IBTA, aby zapewnić ich współpracę.
- RoCE v2: Jego oparcie na standardowym Ethernecie pozwala na szerszą interoperacyjność i łatwiejszą integrację z istniejącymi sieciami.
- iWARP: Oparty na standardowych dokumentach RFC IETF dla TCP/IP, co zapewnia wysoką kompatybilność w standardowych sieciach IP.
C. Efektywność kosztowa
- Inwestycja początkowa:
- InfiniBand: Zazwyczaj wymaga wyższej inwestycji początkowej ze względu na specjalistyczny sprzęt i licencjonowanie. W przypadku dużych klastrów AI przełączniki InfiniBand mogą być znacznie droższe niż przełączniki RoCE.
- RoCE v2: Często jest bardziej opłacalną opcją, ponieważ może integrować się z istniejącym Ethernetem, zmniejszając koszty nowego sprzętu. Oszczędności na przełącznikach dla dużych klastrów AI mogą być znaczne (od 49% do 70% w porównaniu z InfiniBand).
- iWARP: Używa standardowych przełączników Ethernet, ale wymaga specjalistycznych adapterów, co nadal może stanowić znaczny koszt.
- Standardowy Ethernet: Ogólnie najtańsza opcja ze względu na powszechnie dostępny sprzęt.
- Całkowity koszt posiadania (TCO):
- InfiniBand: Zazwyczaj ma wyższy TCO ze względu na specjalistyczny sprzęt, konserwację i potrzebę szkolenia personelu z technologii prawnie zastrzeżonej.
- RoCE v2: Może mieć niższy TCO, ale jest to warunkowe. Złożoność konfiguracji i utrzymania bezstratnej sieci szkieletowej Ethernet może znacznie zwiększyć koszty operacyjne. Chociaż początkowe koszty sprzętu mogą być niższe, specjalistyczna wiedza i wysiłek wymagany do projektowania, rozwiązywania problemów i konserwacji mogą zniwelować te oszczędności. Dlatego „efektywność kosztowa” zależy zarówno od ceny sprzętu, jak i od wiedzy specjalistycznej organizacji oraz obciążenia związanego z zarządzaniem.
- iWARP: Wyzwania związane z integracją i zarządzaniem mogą wpływać na jego ogólny TCO.
Poniższa tabela przedstawia porównawczy przegląd kwestii infrastrukturalnych i kosztowych:
| Cecha | InfiniBand | RoCE v2 | iWARP | Standardowy Ethernet/TCP/IP |
|---|---|---|---|---|
| Wymagany sprzęt sieciowy | Dedykowane karty IB, przełączniki IB, kable IB | Karty NIC obsługujące RoCE, standardowe przełączniki/kable Ethernet | Karty NIC obsługujące iWARP, standardowe przełączniki/kable Ethernet | Standardowe karty NIC Ethernet, przełączniki/kable Ethernet |
| Kompatybilność sieciowa | Prawnie zastrzeżona (Standard IBTA) | Standardowy Ethernet (IEEE) | Standardowy Ethernet (IETF RFCs) | Standardowy Ethernet (IEEE) |
| Złożoność zarządzania | Trudna (specjalistyczny SM) | Trudna (konfiguracja bezstratnego Ethernetu) | Trudniejsza niż RoCE | Łatwa |
| Początkowy koszt sprzętu (względny) | Wysoki | Umiarkowany (wykorzystuje istniejącą infrastrukturę) | Umiarkowany (specjalistyczne karty NIC) | Niski |
| Całkowity koszt posiadania (względny) | Wyższy | Niższy (warunkowo od zarządzania) | Zmienny (wyzwania integracyjne) | Najniższy |
| Ekosystem dostawców | Ograniczony (dominuje NVIDIA/Mellanox) | Szeroki (wielu dostawców Ethernet) | Szeroki (wielu dostawców Ethernet) | Bardzo szeroki |
D. Skalowalność i elastyczność
- Możliwości routingu:
- InfiniBand: Wykorzystuje przełączaną sieć szkieletową z routingiem centralnie zarządzanym przez menedżera podsieci (SM). Jest wysoce skalowalny, obsługując klastry z ponad 100 000 węzłów.
- RoCE v2: Jego kapsułkowanie UDP/IP pozwala na routowanie w sieciach IP warstwy 3, co czyni go skalowalnym w dużych sieciach i środowiskach chmurowych. Obsługuje również ECMP do wydajnego równoważenia obciążenia.
- iWARP: Jest routowalny w sieciach IP.
- Standardowy Ethernet: Wysoce skalowalny i elastyczny, ale może wymagać zaawansowanych konfiguracji, takich jak architektury spine-leaf, aby osiągnąć wydajność na poziomie HPC.
- Topologie sieciowe:
- InfiniBand: Zoptymalizowany pod kątem klastrów HPC/AI, obsługujący wysokowydajne topologie, takie jak Fat Tree, Dragonfly+ i wielowymiarowy Torus.
- RoCE v2: Jego routing oparty na IP sprawia, że jest on adaptowalny do niemal każdej topologii sieciowej.
- Standardowy Ethernet: Obsługuje szeroki zakres topologii, w tym gwiazdę i siatkę.
E. Niezawodność i kontrola zatorów
- Niezawodność:
- InfiniBand: Zapewnia natywną, sprzętową niezawodność dzięki sterowaniu przepływem opartemu na kredytach, gwarantując bezstratną komunikację.
- RoCE v2: Opiera się na bezstratnej konfiguracji Ethernet z wykorzystaniem PFC i ETS. Obejmuje również mechanizm niezawodnego dostarczania end-to-end z retransmisją pakietów opartą na sprzęcie.
- iWARP: Korzysta z wbudowanej niezawodności TCP, która zapewnia korekcję błędów i retransmisje.
- Standardowy TCP/IP: Skupia się na niezawodności poprzez retransmisje, co może dodawać znaczne opóźnienia i zmniejszać przepustowość.
- Kontrola zatorów:
- InfiniBand: Definiuje własne mechanizmy kontroli zatorów oparte na oznaczaniu FECN/BECN.
- RoCE v2: Implementuje protokół kontroli zatorów wykorzystujący bity IP ECN i pakiety powiadomień o zatorach (CNP). Stosowane są również praktyki branżowe, takie jak DCQCN.
- iWARP: Opiera się na ugruntowanych algorytmach kontroli zatorów TCP.
F. Przystosowanie do zastosowań
- InfiniBand: Idealny wybór dla środowisk wymagających najwyższej przepustowości danych i najniższych opóźnień. Obejmuje to badania naukowe, modelowanie finansowe, wielkoskalowe klastry HPC i najbardziej wymagające obciążenia związane z trenowaniem AI/ML.
- RoCE v2: Preferowany przez przedsiębiorstwa, które chcą wykorzystać istniejącą infrastrukturę Ethernet, jednocześnie potrzebując wysokiej wydajności. Jest dobrze przystosowany do sieci pamięci masowej, analityki w czasie rzeczywistym i usług chmurowych, oferując równowagę między wydajnością a kosztem.
- iWARP: Może być rozważany w niszowych zastosowaniach, gdzie istniejąca infrastruktura TCP/IP jest ścisłym wymogiem, a ultraniskie opóźnienia nie są najwyższym priorytetem. Nadaje się do zastosowań takich jak NVMeoF, iSER, SMB Direct i NFS over RDMA, lub jako tania opcja dla środowisk testowych.
- Standardowy Ethernet/TCP/IP: Pozostaje najlepszym wyborem do ogólnych zastosowań sieciowych, takich jak sieci LAN w przedsiębiorstwach i infrastruktura chmurowa, gdzie ekstremalna wydajność HPC/AI nie jest głównym celem.
- Trylemat wydajność-koszt-złożoność: Ta analiza ujawnia fundamentalny kompromis przy wyborze połączenia: trylemat między wydajnością, kosztem a złożonością. InfiniBand oferuje najwyższą wydajność i natywną niezawodność, ale przy wyższym koszcie. RoCE v2 zapewnia wydajność zbliżoną do InfiniBand na Ethernecie, potencjalnie obniżając koszty sprzętu, ale dodając znaczną złożoność konfiguracyjną. iWARP oferuje RDMA nad TCP, ale z niższą wydajnością. Standardowy Ethernet jest opłacalny, ale brakuje mu wydajności do wymagających obciążeń. Nie ma jednego „najlepszego” rozwiązania; właściwy wybór wymaga zrównoważenia tych trzech czynników w oparciu o konkretne potrzeby i możliwości.
Poniższa tabela przedstawia przydatność aplikacji dla każdej technologii:
| Technologia | Główne przypadki użycia | Najlepszy dla | Mniej odpowiedni dla |
|---|---|---|---|
| InfiniBand | HPC, Trenowanie AI/ML, Analityka Big Data, Usługi finansowe (arbitraż) | Środowiska wymagające absolutnie najniższych opóźnień, najwyższej przepustowości i natywnych gwarancji bezstratności | Wrażliwe na koszty, ogólne sieci korporacyjne, środowiska bez specjalistycznej wiedzy IT |
| RoCE v2 | Centra danych, Usługi chmurowe, Sieci pamięci masowej, Analityka w czasie rzeczywistym, Wnioskowanie AI/ML | Organizacje wykorzystujące istniejącą infrastrukturę Ethernet do wysokiej wydajności; równowaga kosztów i wydajności | Środowiska, w których natywne gwarancje bezstratności są nie do negocjacji bez rozległej wiedzy konfiguracyjnej |
| iWARP | NVMeoF, iSER, SMB Direct, NFS over RDMA, Środowiska testowe/deweloperskie | Specyficzne aplikacje wymagające RDMA na istniejącym TCP/IP, gdzie absolutna szczytowa wydajność nie jest krytyczna | Wielkoskalowe klastry HPC/AI, wrażliwe na opóźnienia aplikacje czasu rzeczywistego |
| Standardowy Ethernet/TCP/IP | Ogólne sieci korporacyjne, LAN, Łączność internetowa, Infrastruktura chmurowa | Wszechobecne, opłacalne i elastyczne sieci ogólnego przeznaczenia | Obliczenia o wysokiej wydajności, trenowanie AI/ML i inne wrażliwe na opóźnienia, intensywne obliczeniowo obciążenia |
VII. Nowe, wysokowydajne połączenia i przyszłe trendy
Krajobraz sieci o wysokiej wydajności nieustannie się zmienia, napędzany przez intensywne obciążenia danych i potrzebę większej wydajności. Poza ugruntowanymi technologiami RDMA, nowe połączenia i trendy kształtują przyszłość centrów danych.
A. Compute Express Link (CXL)
CXL to nowoczesne połączenie zbudowane na warstwie fizycznej PCIe, przeznaczone dla ogólnych systemów obliczeniowych. Jego głównym celem jest umożliwienie szybkiej, bezproblemowej komunikacji między procesorami a akceleratorami, takimi jak GPU i FPGA.
Kluczowe cechy CXL obejmują szybki transfer danych, szeroką kompatybilność i wydajne współdzielenie pamięci poprzez spójność pamięci podręcznej (Cache Coherency). Obsługuje trzy typy urządzeń (dla akceleratorów, urządzeń ze spójną pamięcią podręczną i ekspanderów pamięci) oraz elastyczne topologie. CXL/PCIe Gen5 oferuje szczytową przepustowość 512 Gb/s przy opóźnieniu około 500 nanosekund. Chociaż InfiniBand ma niższe opóźnienie (około 100 nanosekund), CXL jest lepszy w przypadku dostępu do pamięci o niskim opóźnieniu, gdzie spójność pamięci podręcznej jest kluczowa.
Istotnym wydarzeniem było połączenie konsorcjów Gen-Z i CXL w 2022 roku, co pozycjonuje CXL jako jedyny standard branżowy dla tej klasy połączeń skoncentrowanych na pamięci.
CXL reprezentuje przejście od tradycyjnej komunikacji międzywęzłowej (jak RoCE i InfiniBand) w kierunku spójności pamięci i dezagregacji zasobów. Oznacza to, że dla pewnych obciążeń CXL może stać się głównym połączeniem, uzupełniając lub zmniejszając zapotrzebowanie na tradycyjne sieci szkieletowe.
B. NVLink
NVLink to prawnie zastrzeżone, wysokoprzepustowe i niskopóźnieniowe połączenie firmy NVIDIA, zaprojektowane do bezpośredniej komunikacji GPU-GPU i GPU-CPU w ramach jej platform obliczeń akcelerowanych.
NVLink jest kluczową częścią rozwiązań NVIDIA dla AI i HPC, takich jak architektury GB200 i GB300. Ma kluczowe znaczenie dla skalowania trenowania modeli AI, zapewniając niezwykle szybkie transfery danych między procesorami graficznymi.
NVLink pokazuje trend w kierunku integracji pionowej i wyspecjalizowanej wydajności. Jego prawnie zastrzeżony charakter kontrastuje z otwartymi standardami, takimi jak RoCE czy InfiniBand. Taka konstrukcja maksymalizuje wydajność w ramach stosu sprzętowego jednego dostawcy. Podczas gdy InfiniBand i RoCE obsługują ogólną komunikację sieciową między węzłami, NVLink optymalizuje komunikację wewnątrz i pomiędzy systemami GPU, tworząc warstwową architekturę połączeń, w której różne technologie służą różnym potrzebom.
C. Przyszłe prędkości Ethernetu
Ethernet ewoluował od 10 Mb/s do 400 Gb/s, a rozwój trwa nadal, z standardami 800GbE i 1.6TbE na horyzoncie. Te szybsze prędkości będą niezbędne dla aplikacji nowej generacji, takich jak obliczenia kwantowe, zaawansowana sztuczna inteligencja i technologie immersyjne.
Ciągły wzrost prędkości Ethernetu bezpośrednio przynosi korzyści RoCE. Ponieważ RoCE jest zbudowany na Ethernecie, automatycznie zyskuje na tych postępach, co pomaga mu pozostać konkurencyjnym w stosunku do InfiniBand. Rozwój usług chmurowych już teraz napędza wdrażanie 200GbE i 400GbE, a wkrótce pojawią się 800GbE i 1.6TbE.
Bieżąca relevancia Ethernetu i RoCE są ze sobą ściśle powiązane. W miarę postępu prędkości Ethernetu, RoCE staje się jeszcze silniejszym kandydatem dla wysokowydajnych centrów danych, zwłaszcza dla organizacji, które chcą wykorzystać swoje istniejące inwestycje w Ethernet i uniknąć prawnie zastrzeżonych ekosystemów.
D. Obliczenia zdezagregowane i fotonika
- Obliczenia zdezagregowane: To nowe podejście ma na celu poprawę wydajności centrów danych poprzez oddzielenie zasobów, takich jak moc obliczeniowa, pamięć masowa i pamięć operacyjna, od tradycyjnych serwerów. Zasoby te są następnie ponownie składane w elastyczne pule połączone zaawansowanymi sieciami. Kluczowym rezultatem jest to, że komunikacja, która kiedyś odbywała się wewnątrz serwera, teraz przechodzi przez sieć, co radykalnie zwiększa obciążenie i sprawia, że ultraniskie opóźnienia stają się krytyczne. Ten trend wzmacnia zapotrzebowanie na wysokowydajne połączenia, takie jak RoCE i InfiniBand, oraz napędza rozwój nowych, takich jak CXL.
- Fotonika w sieciach centrów danych: Fotonika krzemowa integruje komponenty optyczne na chipach krzemowych, umożliwiając szybkie, energooszczędne połączenia optyczne. Technologia ta oferuje znacznie szybsze transfery danych (ponad 100 Gb/s), niższe opóźnienia i lepszą efektywność energetyczną niż tradycyjna miedź. Staje się ona niezbędna do sprostania rosnącym wymaganiom ruchowym w centrach danych i umożliwienia nowej generacji szybkiego Ethernetu.
Związek między tymi trendami jest symbiotyczny. Architektury zdezagregowane wymagają zaawansowanych sieci, które zapewniają połączenia takie jak RoCE, InfiniBand i CXL. Z kolei osiągnięcie niezbędnych prędkości dla tych połączeń, zwłaszcza dla przyszłych standardów 800GbE i 1.6TbE, będzie zależeć od technologii takich jak fotonika krzemowa.
VIII. Rekomendacje i wnioski
Wybór wysokowydajnego połączenia to kluczowa decyzja strategiczna, która musi być zgodna z konkretnymi potrzebami organizacji, budżetem, infrastrukturą i długoterminową wizją.
- Dla maksymalnej surowej wydajności i kluczowych zastosowań HPC/AI: InfiniBand jest wyraźnym złotym standardem. Jego natywne RDMA, sterowanie przepływem oparte na kredytach i celowa konstrukcja zapewniają najniższe opóźnienia i najwyższą przepustowość z gwarantowaną wydajnością bezstratną. Organizacje z odpowiednim budżetem i wiedzą specjalistyczną powinny wybrać InfiniBand dla wielkoskalowych klastrów, gdzie liczy się każda mikrosekunda.
- Dla wysokiej wydajności przy efektywności kosztowej i integracji z Ethernetem: RoCE v2 jest silną i coraz popularniejszą alternatywą. Oferuje znaczne korzyści wydajnościowe w porównaniu z TCP/IP i może zbliżyć się do wydajności InfiniBand, wykorzystując istniejącą infrastrukturę Ethernet. Jest idealny dla organizacji modernizujących swoje centra danych bez całkowitej przebudowy. Jednak wybór ten wymaga zaangażowania w staranną konfigurację i zarządzanie bezstratną siecią szkieletową Ethernet.
- Dla niszowych zastosowań lub starszych środowisk RDMA over TCP: iWARP może być odpowiedni w określonych przypadkach, zwłaszcza tam, gdzie korzystanie z istniejącej infrastruktury TCP/IP jest koniecznością, a szczytowa wydajność nie jest głównym celem. Jednak jego niższa wydajność i większa złożoność zarządzania ograniczają jego zastosowanie w nowoczesnych wdrożeniach o wysokiej wydajności.
- Dla ogólnych zastosowań sieciowych: Standardowy Ethernet/TCP/IP pozostaje najpowszechniejszym i najbardziej opłacalnym wyborem dla środowisk bez ekstremalnych wymagań wydajnościowych. Jego łatwość użycia i powszechny sprzęt czynią go idealnym do ogólnych sieci korporacyjnych, LAN i standardowej infrastruktury chmurowej.
- Rozważanie nowych technologii w celu zapewnienia przyszłościowej gotowości: Organizacje powinny obserwować rozwój CXL dla architektur skoncentrowanych na pamięci i zdezagregowanych, ponieważ uzupełnia on tradycyjne sieci szkieletowe, optymalizując pule zasobów. Podobnie NVLink jest kluczowy dla optymalizacji komunikacji w systemach NVIDIA z dużą liczbą GPU. Technologie te wskazują na dywersyfikację połączeń dla różnych warstw hierarchii obliczeniowej. Dodatkowo rozwój Ethernetu 800GbE i 1.6TbE, wraz z postępami w fotonice, będzie nadal czynił RoCE jeszcze potężniejszą opcją.
Podsumowując, krajobraz sieci o wysokiej wydajności jest złożony, napędzany przez wymagania AI, HPC i przejście w kierunku obliczeń zdezagregowanych. Podczas gdy InfiniBand prowadzi pod względem absolutnej wydajności w specjalistycznych środowiskach, RoCE v2 stanowi potężną i elastyczną alternatywę, która łączy korzyści RDMA z wszechobecnością Ethernetu. Pojawienie się CXL i NVLink wskazuje na strategiczną dywersyfikację połączeń, optymalizującą różne warstwy komunikacji. Optymalne rozwiązanie zawsze będzie strategiczną równowagą między wymaganiami wydajnościowymi, kosztem, istniejącą infrastrukturą i wizją przyszłości.




