Цялостен анализ на високопроизводителни мрежови връзки: RoCE v2, InfiniBand, iWARP и нововъзникващи алтернативи за съвременните центрове за данни

Categorized as Hardware
Save and Share:

I. Резюме

Съвременните центрове за данни трябва да поддържат взискателни работни натоварвания като високопроизводителни изчисления (HPC), изкуствен интелект/машинно обучение (AI/ML) и анализи на големи данни. Тези приложения изискват изключително ниска латентност, висока пропускателна способност и минимално натоварване на процесора. Традиционните мрежови протоколи като TCP/IP не могат да отговорят на тези нужди поради голямото си натоварване и високата латентност.

Директният отдалечен достъп до паметта (RDMA) е ключовата технология, която позволява високопроизводителни мрежови връзки. RDMA дава възможност на компютри в мрежа да прехвърлят данни директно между паметта си, без да ангажират операционните си системи или процесори (комуникация от памет до памет). Този процес драстично намалява латентността и натоварването на процесора.

  • InfiniBand е специално създадена, патентована мрежова тъкан, проектирана за възможно най-висока производителност и работа без загуби.
  • RoCE v2 (RDMA over Converged Ethernet) прилага предимствата на RDMA върху стандартен Ethernet, предлагайки маршрутизируем и по-икономичен вариант, но изисква специфични конфигурации, за да работи без загуби.
  • iWARP е друго решение за RDMA върху Ethernet, базирано на TCP, но като цяло е по-рядко срещано и предлага по-ниска производителност от RoCE v2.

Изборът на правилната мрежова връзка е стратегическо решение, което зависи от нуждите от производителност, бюджета, съществуващата инфраструктура и целите за мащабируемост. Този доклад анализира тези технологии, сравнява ги със стандартния Ethernet/TCP/IP и разглежда нови алтернативи като CXL и NVLink, за да подпомогне това критично решение.

II. Въведение във високопроизводителните мрежи и RDMA

Днешният дигитален свят се характеризира с експоненциален растеж на приложения, интензивни на данни, като високопроизводителни изчисления (HPC), изкуствен интелект/машинно обучение (AI/ML) и анализи на големи данни. Тези работни натоварвания трябва да преместват огромни набори от данни бързо и ефективно между изчислителни възли и съхранение. Например, приложенията с изкуствен интелект са силно чувствителни към целостта на данните и изискват мрежи без загуби, където едно изгубено съобщение може да провали цял цикъл на обучение. Трафикът с висока пропускателна способност също е от съществено значение за тези приложения, за да обработват данните ефективно.

Ограничения на традиционния TCP/IP Ethernet за високопроизводителни приложения

Макар и надежден за общи мрежови нужди, традиционният TCP/IP Ethernet има сериозни ограничения за високопроизводителни приложения:

  • Висока латентност и натоварване на процесора: Дизайнът на TCP/IP изпраща данни през множество софтуерни слоеве в ядрото на операционната система, което изисква значително участие на процесора. Този процес добавя значителна латентност (обикновено десетки микросекунди) и натоварва силно процесора. За приложения, чувствителни към латентност, това се превръща в сериозно препятствие, тъй като процесорът прекарва времето си в управление на мрежовия трафик, вместо да изпълнява приложението. Този „данък върху процесора“, причинен от превключване на контекст и копиране на данни, е основна причина за приемането на RDMA технологии, които разтоварват обработката на мрежата и освобождават процесора за задачи на приложението.
  • Ограничения на пропускателната способност: Няколко фактора ограничават ефективната пропускателна способност на TCP, включително размер на прозореца за предаване, размер на сегмента и загуба на пакети. Стандартният размер на TCP прозореца (често ограничен до 65 535 байта) може да попречи на пълното използване на връзки с висока пропускателна способност, особено в мрежи с по-висока латентност. Освен това, основният механизъм за надеждност на TCP – повторното предаване на пакети – въвежда закъснения и използва допълнителна пропускателна способност, което вреди на производителността в претоварени мрежи или мрежи със загуби.
  • Предизвикателства пред мащабируемостта: Въпреки че TCP/IP се мащабира добре за големи мрежи, неговият дизайн дава приоритет на общата надеждност пред суровата производителност. Това го прави по-малко ефективен за сценарии, изискващи изключителна пропускателна способност и минимална латентност, като например мащабни HPC клъстери или AI изводи в реално време.

Основи на директния отдалечен достъп до паметта (RDMA) и неговите основни предимства

Директният отдалечен достъп до паметта (RDMA) е разработен, за да преодолее ограниченията на TCP/IP във високопроизводителни среди. Основните му предимства идват от заобикалянето на процесора и операционната система по време на прехвърляне на данни:

  • Директен достъп до паметта (Zero-Copy): RDMA прехвърля данни директно от паметта на един компютър в паметта на друг, без да ангажира процесора или операционната система на нито една от двете системи. Този подход, наречен „zero-copy“ (нулево копиране), елиминира междинните буфери за данни и превключванията на контекст, които са основни източници на натоварване в традиционните мрежи.
  • Намалена латентност и натоварване на процесора: Като заобикаля процесора и операционната система, RDMA драстично намалява латентността на комуникацията и освобождава процесорни цикли. Това води директно до по-бързи изчисления и по-добро обработване на данни в реално време. Например, латентността на приложението може да спадне от около 50 микросекунди с TCP/IP до едва 2-5 микросекунди с RDMA.
  • По-високо използване на пропускателната способност: Ефективният път на данните и намаленото натоварване на RDMA позволяват на приложенията да използват по-добре наличната мрежова пропускателна способност, което води до по-висока ефективна производителност.
  • Основни реализации: Основните RDMA технологии, използвани днес, са InfiniBand, RoCE (версии 1 и 2) и iWARP.

III. RoCE v2: RDMA през конвергиран Ethernet

RoCE v2 е значителна стъпка напред във високопроизводителните мрежи, разширявайки предимствата на RDMA до широко използваната Ethernet екосистема.

A. Архитектурни принципи

  • Еволюция от RoCE v1: RoCE v1 е протокол от ниво 2 (Ethertype 0x8915), което го ограничава до един Ethernet домейн за излъчване и намалява неговата мащабируемост. RoCE v2 решава този проблем, като работи на интернет нивото. Той капсулира RDMA трафика в UDP/IP пакети (използвайки UDP порт 4791), което го прави маршрутизируем през IP мрежи от ниво 3. Тази маршрутизируемост е критично подобрение, позволяващо на RoCE v2 да се използва в мащабни центрове за данни и облачни среди.
  • Интеграция на RDMA върху Ethernet: RoCE предоставя метод за извършване на RDMA през стандартна Ethernet мрежа. Той ефективно заменя мрежовия слой на InfiniBand с IP и UDP заглавия, като същевременно запазва основния транспортен слой на InfiniBand и RDMA протокола. Този дизайн позволява на RoCE да се възползва от съществуващата Ethernet инфраструктура.
  • Формат на пакета: Пакет RoCE v2 включва IP заглавие и UDP заглавие, които капсулират транспортния протокол на RDMA. Въпреки че UDP не гарантира реда на пакетите, стандартът RoCE v2 изисква пакети с един и същ изходен порт и целеви адрес да не се пренареждат.
  • Компромисът „Най-доброто от двата свята“: Дизайнът на RoCE v2 е стратегически компромис, целящ да достави високата производителност на RDMA върху гъвкавата, икономична и вездесъща Ethernet платформа. Въпреки че този подход предлага широка съвместимост, той създава ключово предизвикателство: осигуряване на производителност без загуби, която RDMA изисква, върху Ethernet мрежа, която по своята същност има загуби.

Б. Профил на производителност

  • Латентност: Адаптерите на хост канала (HCA) за RoCE могат да постигнат много ниска латентност, достигаща до 1,3 микросекунди. На ниво приложение RoCE намалява латентността до около 5 микросекунди, което е огромно подобрение в сравнение с типичните 50 микросекунди при TCP/IP. Въпреки че InfiniBand предлага малко по-ниска латентност, производителността на RoCE е отлична за приложения в реално време.
  • Пропускателна способност: RoCE v2 поддържа висока пропускателна способност със скорости до 400 Gbps на порт.
  • Разтоварване на процесора: Подобно на други RDMA протоколи, RoCE заобикаля процесора при прехвърляне на данни. Това разтоварване освобождава ценни процесорни ресурси за изчислително интензивни задачи, вместо за обработка на мрежовия трафик.
  • Производителност без загуби: За да се сравни с производителността на InfiniBand, RoCE зависи от Ethernet мрежа без загуби. Това обикновено се постига чрез прилагане на функциите на Data Center Bridging (DCB), особено Priority Flow Control (PFC) и Explicit Congestion Notification (ECN).

В. Инфраструктура и управление

  • Хардуерни/софтуерни изисквания: RoCE работи със стандартен Ethernet хардуер като комутатори и кабели, което позволява на организациите да използват съществуващата си инфраструктура. Въпреки това изисква RoCE-съвместими адаптери на хост канала (HCA) в крайните точки. Софтуерната поддръжка е зряла, с реализации в Mellanox OFED 2.3+ и интеграция в ядрото на Linux v4.5+.
  • Конфигурация на мрежа без загуби: Въпреки че RoCE използва стандартен Ethernet, създаването на DCB мрежа без загуби може да бъде по-сложно от настройването на InfiniBand мрежа. Всеки компонент, от крайните точки до комутаторите, трябва да бъде внимателно конфигуриран. Това включва настройка на Priority Flow Control (PFC), Enhanced Transmission Selection (ETS) и механизми за уведомяване за претоварване. За да работят в мрежи от ниво 3, тези характеристики без загуби трябва да се поддържат и през рутери, често чрез съпоставяне на настройките за приоритет от ниво 2 със настройките за QoS на DSCP от ниво 3.
  • Съображения за управление: RoCE може да се управлява със стандартни инструменти за Ethernet. Въпреки това, осигуряването на последователна производителност без загуби и управлението на претоварването в мащабни RoCE v2 внедрявания може да бъде предизвикателство и изисква специализиран опит.
  • Скритата цена на „икономичността“: RoCE често се нарича „икономичен“, защото може да използва съществуваща Ethernet инфраструктура, но това е опростяване. Постигането на производителност, подобна на InfiniBand, изисква перфектно конфигурирана Ethernet мрежа без загуби. Сложността на настройката на функциите на Data Center Bridging (DCB) като PFC и ECN може да бъде много по-висока от конфигурирането на InfiniBand мрежа. Тази сложност води до по-високи оперативни разходи за проектиране на мрежата, отстраняване на проблеми и управление, и може да изисква по-скъпи Ethernet комутатори. В резултат на това първоначалните хардуерни спестявания от RoCE могат да бъдат неутрализирани от тези по-високи оперативни разходи. За точна сравнение е необходим задълбочен анализ на общата цена на притежание (TCO).

Г. Ключови приложения

RoCE v2 е отлично решение за много центрове за данни и корпоративни приложения. Той е особено подходящ за среди, които изискват изключително ниска латентност и висока пропускателна способност, като например AI работни натоварвания, високочестотна търговия и анализи в реално време. Той също така подобрява производителността на приложения, които силно разчитат на бази данни или файлов I/O. Освен това RoCE v2 подпомага непрекъсваемостта на бизнеса и възстановяването след бедствия, като позволява бърза и ефективна репликация на данни. Широкото му използване в клъстери за AI обучение подчертава значението му в съвременните изчисления.

IV. InfiniBand: Специализираната високопроизводителна мрежова тъкан

InfiniBand е високопроизводителна мрежова връзка от най-висок клас, проектирана от самото начало да предоставя несравнима скорост, минимална латентност и висока надеждност за взискателни изчислителни среди.

A. Архитектурни принципи

  • Вграден RDMA: InfiniBand е създаден с RDMA, интегриран в целия му протоколен стек, от физическото ниво нагоре. Този дизайн от основи гарантира, че RDMA операциите са изключително ефективни, създавайки директни и защитени канали за данни между възлите без участие на процесора.
  • Топология с комутируема тъкан: InfiniBand използва топология с комутируема тъкан за директни връзки „точка до точка“ между устройствата. Архитектурата включва адаптери на хост канала (HCA) на процесорите и адаптери на целевия канал (TCA) на периферните устройства, което позволява ефективна комуникация.
  • Контрол на потока на базата на кредити: Основна характеристика на InfiniBand е неговият контрол на потока на базата на кредити. Този алгоритъм на хардуерно ниво гарантира комуникация без загуби, като осигурява, че изпращачът предава данни само ако получателят има достатъчно буферно пространство (кредити), за да ги приеме. Тази вградена надеждност предотвратява загубата на пакети и отличава InfiniBand от технологии, които се нуждаят от конфигурации на по-високо ниво, за да работят без загуби.
  • Патентовани стандарти: InfiniBand следва патентовани стандарти, определени от InfiniBand Trade Association (IBTA), основана през 1999 г. Екосистемата е силно доминирана от NVIDIA (чрез придобиването на Mellanox), водещ производител на InfiniBand адаптери и комутатори.

Б. Профил на производителност

  • Изключително ниска латентност: InfiniBand последователно предлага най-ниската латентност. Латентността на адаптерите може да бъде едва 0,5 микросекунди, а латентността между портовете на комутатора е около 100 наносекунди – значително по-ниска от 230 наносекунди на сравними Ethernet комутатори. На ниво приложение InfiniBand може да постигне латентност до 2 микросекунди, в сравнение с 50 микросекунди при TCP/IP.
  • Възможности за висока пропускателна способност: InfiniBand поддържа изключително високи скорости на данни. Съвременните версии като HDR и NDR предлагат до 200 Gbps и 400 Gbps на лента. Агрегираните връзки могат да постигнат още по-висока пропускателна способност, достигайки 800 Gbps (NDR) и дори 1,6 Tbps (XDR).
  • Ефективност на процесора: Ключова сила на InfiniBand е способността му да предоставя изключително ниска латентност и изключително висока пропускателна способност с почти нулево използване на процесора. Това разтоварване на мрежовата обработка е критично предимство за тежки изчислителни натоварвания.
  • Производителност по дизайн срещу производителност по конфигурация: InfiniBand и RoCE имат фундаментална разлика в подхода си. InfiniBand е проектиран от самото начало за RDMA, като неговите физически и транспортни слоеве са създадени за надеждност на хардуерно ниво, включително вграден алгоритъм на базата на кредити за комуникация без загуби. За разлика от това, RoCE работи на стандартен Ethernet и разчита на конфигурация на функции като Priority Flow Control (PFC) и Explicit Congestion Notification (ECN), за да създаде мрежа без загуби. Това означава, че InfiniBand предоставя гарантирано висока производителност веднага след инсталацията, докато производителността на RoCE зависи от качеството на основната Ethernet конфигурация.

В. Инфраструктура и управление

  • Специализиран хардуер: InfiniBand изисква специализиран хардуер, включително специални адаптери на хост канала (HCA), комутатори, рутери и патентовани кабели. Това обикновено води до по-висока първоначална инвестиция в сравнение с решенията, базирани на Ethernet.
  • Централизирано управление: Мрежите InfiniBand се управляват от централен мениджър на подмрежа (SM), който изчислява и разпространява таблици за пренасочване и управлява конфигурации като дялове и качество на услугата (QoS). Този централизиран подход може да опрости управлението в големи клъстери след първоначалната настройка.
  • Специализиран опит: Разгръщането и поддръжката на InfiniBand мрежи обикновено изисква специализирани познания, което може да увеличи оперативните разходи и да създаде по-стръмна крива на обучение за ИТ персонала.
  • Екосистема: Екосистемата на InfiniBand е зряла, но доминирана от NVIDIA/Mellanox.

Г. Ключови приложения

InfiniBand е индустриалният стандарт за среди за високопроизводителни изчисления (HPC) и е най-бързо растящата мрежова връзка за тези приложения. Това е основната технология, препоръчвана от IBTA. Нейната изключително ниска латентност и висока пропускателна способност са от съществено значение за взискателни работни натоварвания като мащабно обучение на AI/ML модели, анализи на големи данни и масивни операции с бази данни. Той е от решаващо значение и за големи симулации (напр. прогнозиране на времето) и високочестотни финансови услуги, където скоростта и целостта на данните са критични. Към юни 2022 г. 62% от Топ 100 суперкомпютри в света използваха InfiniBand.

V. iWARP: RDMA през стандартен TCP/IP

iWARP (Internet Wide Area RDMA Protocol) е друг метод за внедряване на RDMA, забележителен с използването на стандартния протоколен стек TCP/IP.

A. Архитектурни принципи

  • RDMA през TCP/IP: iWARP е протокол, който реализира RDMA през стандартни IP мрежи. За разлика от RoCE, който използва UDP, iWARP е изграден върху надеждни транспортни протоколи като TCP и SCTP.
  • Ключови компоненти: Работата на iWARP разчита на няколко компонента. Протоколът за директно поставяне на данни (DDP) позволява предаване без копиране, като поставя данните директно в паметта на приложението. Протоколът за директен отдалечен достъп до паметта (RDMAP) предоставя услугите за RDMA операции за четене и запис. Необходим е специфичен адаптационен слой, Marker PDU Aligned (MPA) framing, за да се даде възможност на DDP през TCP.
  • Надеждност: Уникална характеристика на iWARP е, че неговата надеждност се осигурява от основния TCP протокол. Това е различно от RoCE v2, който използва UDP и изисква външни механизми като Data Center Bridging (DCB) за надеждност. В резултат на това iWARP поддържа само надеждна, свързана комуникация.

Б. Профил на производителност

  • Сравнителна латентност и пропускателна способност: Въпреки че iWARP има по-ниска латентност от традиционния TCP/IP, неговата производителност като цяло е по-лоша от тази на RoCE. През 2011 г. най-ниската латентност на iWARP HCA е била 3 микросекунди, докато RoCE HCA са достигали 1,3 микросекунди. Бенчмарковете последователно показват, че RoCE доставя съобщения много по-бързо от iWARP, с над 2 пъти по-висока пропускателна способност при 40GbE и 5 пъти по-висока при 10GbE.
  • Разтоварване на процесора: Подобно на други RDMA протоколи, iWARP минимизира натоварването на процесора, като позволява директни трансфери на памет. Той може да използва TCP Offload Engines (TOE) с RDMA хардуер, за да постигне резултати без копиране и допълнително да намали участието на процесора.

В. Инфраструктура и управление

  • Съвместимост със стандартен Ethernet: Основно предимство на iWARP е способността му да работи върху стандартна Ethernet инфраструктура с минимални промени в съществуващата мрежа. Това позволява на организациите да се възползват от текущите си инвестиции.
  • Хардуерни изисквания: Въпреки съвместимостта си със стандартни Ethernet комутатори, iWARP все пак изисква iWARP-съвместими мрежови карти в крайните точки.
  • Аспекти на интеграция: iWARP е интегриран в основни операционни системи като Microsoft Windows Server и съвременни ядра на Linux. Това поддържа приложения като SMB Direct, iSCSI Extensions for RDMA (iSER) и Network File System over RDMA (NFS over RDMA).
  • Предизвикателства при управлението: Управлението на iWARP трафика може да бъде трудно. Той споделя портовото пространство на TCP, което усложнява управлението на потока и затруднява идентифицирането на RDMA трафик. Като цяло iWARP се счита за по-труден за управление от RoCE.

Г. Пазарна значимост

  • Ограничено приемане: iWARP е „необичайна“ или „по-рядко използвана“ реализация на RDMA в сравнение с InfiniBand и RoCE v2. Неговите решения са имали „ограничен успех“ поради предизвикателства с внедряването и разгръщането.
  • Парадоксът на зависимостта от TCP: Изборът в дизайна на iWARP да наслои RDMA върху TCP осигурява вградена надеждност и съвместимост, но парадоксално му пречи да постигне напълно основните предимства на RDMA. Вроденото натоварване на TCP протокола, дори с хардуерно разтоварване, изглежда пречи на iWARP да достигне изключително ниската латентност и високата пропускателна способност на InfiniBand или RoCE. Този компромис с производителността е довел до ограниченото му приемане на пазара.

VI. Сравнителен анализ: RoCE v2 срещу InfiniBand срещу iWARP срещу стандартен Ethernet

Подробното сравнение на производителността, инфраструктурата и оперативните показатели е от ключово значение за избора на правилната високопроизводителна мрежова връзка.

A. Бенчмаркове за производителност

Производителността на тези мрежови връзки се различава значително, особено по отношение на латентност, пропускателна способност и използване на процесора.

  • Латентност:
    • InfiniBand: Предлага най-ниската латентност. Латентността между портовете на комутатора е около 100 наносекунди, докато латентността на адаптера е едва 0,5 до 1,3 микросекунди. Латентността на ниво приложение може да бъде едва 2 микросекунди.
    • RoCE v2: Осигурява изключително ниска латентност. Латентността на Ethernet комутатора е около 230 наносекунди, докато латентността на HCA може да бъде едва 1,3 микросекунди. Латентността на ниво приложение обикновено е около 5 микросекунди.
    • iWARP: Има по-висока латентност от RoCE, като латентността на HCA е отчетена около 3 микросекунди (данни от 2011 г.). Постоянно се представя по-зле от RoCE.
    • Стандартен TCP/IP: Има най-високата латентност, с еднопосочна латентност от 10 до 55 милисекунди. Латентността на ниво приложение обикновено е около 50 микросекунди.
  • Пропускателна способност:
    • InfiniBand: Поддържа много висока пропускателна способност. Съвременните версии като NDR предлагат до 400 Gbps на порт, а XDR достига до 800 Gbps. Бъдещият GDR се очаква да достигне 1,6 Tbps.
    • RoCE v2: Способен на висока пропускателна способност, поддържа до 400 Gbps на порт.
    • iWARP: Обикновено има по-ниска пропускателна способност от RoCE.
    • Стандартен TCP/IP: Пропускателната способност често е ограничена от натоварването на протокола и повторните предавания, което затруднява ефективното използване на връзки с висока пропускателна способност.
  • Разтоварване на процесора:
    • InfiniBand, RoCE v2, iWARP: И трите RDMA технологии разтоварват значителна работа на процесора, като заобикалят операционната система, освобождавайки процесорни ресурси за други задачи.
    • Стандартен TCP/IP: Причинява високо натоварване на процесора, тъй като ядрото е силно ангажирано в обработката на данни.
  • Механизъм без загуби:
    • InfiniBand: Разполага с вграден, хардуерен контрол на потока на базата на кредити, който гарантира комуникация без загуби.
    • RoCE v2: Разчита на Ethernet конфигурация без загуби, използвайки функции на Data Center Bridging (DCB) като PFC и ECN. Също така има надежден механизъм за доставка от край до край с хардуерни повторни предавания.
    • iWARP: Използва вградения надежден транспорт на TCP за целостта на данните.
    • Стандартен TCP/IP: Използва модел на доставка „best-effort“, разчитайки на повторни предавания на по-високи нива за осигуряване на надеждност, което добавя латентност.

Следващата таблица обобщава характеристиките на производителността:

Характеристика InfiniBand RoCE v2 iWARP Стандартен Ethernet/TCP/IP
Основна технология Вграден RDMA RDMA през Ethernet (UDP/IP) RDMA през Ethernet (TCP/IP) Традиционен слоест протокол
Типична латентност на приложението (µs) 2 5 >3 (2011 HCA) 50
Латентност порт-до-порт на комутатора (ns) 100 230 N/A (разчита на Ethernet) Обикновено по-висока, променлива
Макс. пропускателна способност (Gbps на порт/връзка) 400 (NDR), 800 (XDR), 1.6T (GDR) 400 Обикновено по-ниска от RoCE 400+ (но ограничена от натоварването на протокола)
Натоварване на процесора Почти нулево Много ниско Ниско Високо
Механизъм без загуби Вграден контрол на потока на базата на кредити Изисква Ethernet без загуби (PFC, ECN) Надежден транспорт на TCP „Best-Effort“, разчита на повторни предавания
Маршрутизируемост (L2/L3) L3 (чрез Мениджър на подмрежа) L3 (Маршрутизируем RoCE) L3 L3 (Стандартно IP маршрутизиране)

Б. Инфраструктура и екосистема

  • Хардуерни зависимости:
    • InfiniBand: Изисква пълен набор от специализиран хардуер, включително InfiniBand HCA, комутатори и патентовани кабели.
    • RoCE v2: Изисква RoCE-съвместими HCA, но работи върху стандартни Ethernet комутатори и кабели, което позволява интеграция със съществуващи мрежи.
    • iWARP: Изисква iWARP-съвместими мрежови карти, но може да използва стандартни Ethernet комутатори.
    • Стандартен Ethernet: Използва широко достъпни, масови Ethernet NIC-ове и комутатори.
  • Обвързване с доставчик:
    • InfiniBand: Екосистемата е ограничена и доминирана от Mellanox (NVIDIA), което може да породи притеснения относно обвързването с доставчик.
    • RoCE v2: Възползва се от голяма и конкурентна Ethernet екосистема с множество доставчици. Някои предлагат „Универсални RDMA“ NIC-ове, поддържащи както RoCE, така и iWARP, което намалява обвързването.
    • iWARP: Също се възползва от широката Ethernet екосистема, с поддръжка от доставчици като Intel и Chelsio.
  • Оперативна съвместимост:
    • InfiniBand: Като патентован стандарт, всички компоненти трябва да се придържат към спецификациите на IBTA, за да се гарантира, че работят заедно.
    • RoCE v2: Основата му върху стандартен Ethernet позволява по-широка оперативна съвместимост и по-лесна интеграция със съществуващи мрежи.
    • iWARP: Базиран на стандартни IETF RFC за TCP/IP, осигурявайки висока съвместимост в рамките на стандартни IP мрежи.

В. Икономичност

  • Първоначална инвестиция:
    • InfiniBand: Обикновено изисква по-висока първоначална инвестиция поради специализиран хардуер и лицензиране. За големи AI клъстери, InfiniBand комутаторите могат да бъдат значително по-скъпи от RoCE комутаторите.
    • RoCE v2: Често е по-икономичен вариант, защото може да се интегрира със съществуващ Ethernet, намалявайки разходите за нов хардуер. Спестяванията от комутатори за големи AI клъстери могат да бъдат съществени (49% до 70% в сравнение с InfiniBand).
    • iWARP: Използва стандартни Ethernet комутатори, но изисква специализирани адаптери, което все още може да бъде значителен разход.
    • Стандартен Ethernet: Обикновено най-евтиният вариант поради масовия си хардуер.
  • Обща цена на притежание (TCO):
    • InfiniBand: Има тенденция към по-висока TCO поради специализиран хардуер, поддръжка и нуждата от обучение на персонала за патентована технология.
    • RoCE v2: Може да има по-ниска TCO, но това е условно. Сложността на конфигурирането и поддръжката на Ethernet тъкан без загуби може значително да увеличи оперативните разходи. Докато първоначалните разходи за хардуер може да са по-ниски, специализираните знания и усилия, необходими за проектиране, отстраняване на проблеми и поддръжка, могат да компенсират тези спестявания. Следователно, „икономичността“ зависи както от цената на хардуера, така и от експертизата и тежестта на управлението в организацията.
    • iWARP: Предизвикателствата при интеграцията и управлението могат да повлияят на общата му TCO.

Следващата таблица предоставя сравнителен преглед на инфраструктурните и ценови съображения:

Характеристика InfiniBand RoCE v2 iWARP Стандартен Ethernet/TCP/IP
Необходим мрежов хардуер Специализирани IB NIC-ове, IB комутатори, IB кабели RoCE-съвместими NIC-ове, стандартни Ethernet комутатори/кабели iWARP-съвместими NIC-ове, стандартни Ethernet комутатори/кабели Стандартни Ethernet NIC-ове, Ethernet комутатори/кабели
Мрежова съвместимост Патентована (IBTA стандарт) Стандартен Ethernet (IEEE) Стандартен Ethernet (IETF RFC) Стандартен Ethernet (IEEE)
Сложност на управлението Трудна (Специализиран SM) Трудна (Конфигурация на Ethernet без загуби) По-трудна от RoCE Лесна
Първоначална цена на хардуера (относителна) Висока Умерена (използва съществуващ) Умерена (Специализирани NIC-ове) Ниска
Обща цена на притежание (относителна) По-висока По-ниска (условно от управлението) Променлива (предизвикателства при интеграцията) Най-ниска
Екосистема от доставчици Ограничена (NVIDIA/Mellanox доминира) Широка (множество Ethernet доставчици) Широка (множество Ethernet доставчици) Много широка

Г. Мащабируемост и гъвкавост

  • Възможности за маршрутизиране:
    • InfiniBand: Използва комутируема тъкан с маршрутизиране, управлявано централно от мениджър на подмрежа (SM). Тя е силно мащабируема, поддържаща клъстери с над 100 000 възела.
    • RoCE v2: Неговата UDP/IP капсулация му позволява да бъде маршрутизиран през IP мрежи от ниво 3, което го прави мащабируем в големи мрежи и облачни среди. Той също така поддържа ECMP за ефективно балансиране на натоварването.
    • iWARP: Може да се маршрутизира през IP мрежи.
    • Стандартен Ethernet: Силно мащабируем и гъвкав, но може да изисква напреднали конфигурации като архитектури „spine-leaf“ за ефективност на ниво HPC.
  • Мрежови топологии:
    • InfiniBand: Оптимизиран за HPC/AI клъстери, поддържащ високопроизводителни топологии като Fat Tree, Dragonfly+ и многоизмерен Torus.
    • RoCE v2: Неговото маршрутизиране, базирано на IP, го прави адаптивен към почти всяка мрежова топология.
    • Стандартен Ethernet: Поддържа широк спектър от топологии, включително звезда и мрежа.

Д. Надеждност и контрол на претоварването

  • Надеждност:
    • InfiniBand: Осигурява вградена, хардуерна надеждност със своя контрол на потока на базата на кредити, гарантирайки комуникация без загуби.
    • RoCE v2: Разчита на Ethernet конфигурация без загуби, използвайки PFC и ETS. Той също така включва надежден механизъм за доставка от край до край с хардуерно повторно предаване на пакети.
    • iWARP: Възползва се от вродената надеждност на TCP, която осигурява корекция на грешки и повторни предавания.
    • Стандартен TCP/IP: Фокусира се върху надеждността чрез повторни предавания, което може да добави значителна латентност и да намали пропускателната способност.
  • Контрол на претоварването:
    • InfiniBand: Определя свои собствени механизми за контрол на претоварването, базирани на маркиране FECN/BECN.
    • RoCE v2: Реализира протокол за контрол на претоварването, използвайки IP ECN битове и пакети за уведомяване за претоварване (CNP). Използват се и индустриални практики като DCQCN.
    • iWARP: Разчита на установените алгоритми за контрол на претоварването на TCP.

Е. Пригодност за приложения

  • InfiniBand: Идеалният избор за среди, изискващи най-висока пропускателна способност на данни и най-ниска латентност. Това включва научни изследвания, финансово моделиране, мащабни HPC клъстери и най-взискателните AI/ML обучителни натоварвания.
  • RoCE v2: Предпочитан от предприятия, които искат да използват съществуващата си Ethernet инфраструктура, като същевременно се нуждаят от висока производителност. Той е подходящ за мрежи за съхранение, анализи в реално време и облачни услуги, предлагайки баланс между производителност и цена.
  • iWARP: Може да се разглежда за нишови приложения, където съществуващата TCP/IP инфраструктура е стриктно изискване и изключително ниската латентност не е основен приоритет. Подходящ е за приложения като NVMeoF, iSER, SMB Direct и NFS over RDMA или като евтин вариант за тестови среди.
  • Стандартен Ethernet/TCP/IP: Остава най-добрият избор за общи мрежови нужди, като корпоративни LAN мрежи и облачна инфраструктура, където екстремната HPC/AI производителност не е основната цел.
  • Трилемата производителност-цена-сложност: Този анализ разкрива фундаментален компромис при избора на мрежова връзка: трилема между производителност, цена и сложност. InfiniBand предлага върхова производителност и вградена надеждност, но на по-висока цена. RoCE v2 предоставя производителност, близка до InfiniBand, върху Ethernet, потенциално намалявайки хардуерните разходи, но добавяйки значителна сложност на конфигурацията. iWARP предлага RDMA през TCP, но с по-ниска производителност. Стандартният Ethernet е икономичен, но му липсва производителността за взискателни работни натоварвания. Няма едно „най-добро“ решение; правилният избор изисква балансиране на тези три фактора въз основа на специфични нужди и възможности.

Следващата таблица очертава пригодността на всяка технология за приложения:

Технология Основни случаи на употреба Най-подходяща за По-малко подходяща за
InfiniBand HPC, AI/ML обучение, анализи на големи данни, финансови услуги (арбитраж) Среди, изискващи абсолютно най-ниска латентност, най-висока пропускателна способност и вградени гаранции без загуби Общи корпоративни мрежи, чувствителни към разходите, среди без специализиран ИТ опит
RoCE v2 Центрове за данни, облачни услуги, мрежи за съхранение, анализи в реално време, AI/ML изводи Организации, използващи съществуваща Ethernet инфраструктура за висока производителност; баланс на цена и производителност Среди, където вградените гаранции без загуби са незаменими без обширен опит в конфигурирането
iWARP NVMeoF, iSER, SMB Direct, NFS over RDMA, тестови/развойни среди Специфични приложения, изискващи RDMA през съществуващ TCP/IP, където абсолютната върхова производителност не е критична Мащабни HPC/AI клъстери, чувствителни към латентност приложения в реално време
Стандартен Ethernet/TCP/IP Общи корпоративни мрежи, LAN, интернет свързаност, облачна инфраструктура Вездесъщи, икономични и гъвкави мрежи с общо предназначение Високопроизводителни изчисления, AI/ML обучение и други чувствителни към латентност, интензивни на процесора работни натоварвания

VII. Нововъзникващи високопроизводителни мрежови връзки и бъдещи тенденции

Пейзажът на високопроизводителните мрежи непрекъснато се променя, воден от интензивните на данни работни натоварвания и нуждата от по-голяма ефективност. Освен установените RDMA технологии, нови мрежови връзки и тенденции оформят бъдещето на центровете за данни.

A. Compute Express Link (CXL)

CXL е модерна мрежова връзка, изградена върху физическия слой на PCIe, предназначена за общи изчислителни системи. Основната ѝ цел е да осигури бърза, безпроблемна комуникация между процесори и ускорители като GPU и FPGA.

Ключовите характеристики на CXL включват високоскоростен трансфер на данни, широка съвместимост и ефективно споделяне на памет чрез кохерентност на кеша. Той поддържа три типа устройства (за ускорители, кохерентни устройства и разширители на паметта) и гъвкави топологии. CXL/PCIe Gen5 предлага пикова пропускателна способност от 512 Gbps с латентност около 500 наносекунди. Докато InfiniBand има по-ниска латентност (около 100 наносекунди), CXL е по-добър за достъп до паметта с ниска латентност, където кохерентността на кеша е от решаващо значение.

Значимо развитие беше сливането на консорциумите Gen-Z и CXL през 2022 г., което позиционира CXL като единствения индустриален стандарт за този клас мрежови връзки, фокусирани върху паметта.

CXL представлява преход от традиционните мрежи между възли (като RoCE и InfiniBand) към кохерентност на паметта и дезагрегация на ресурсите. Това означава, че за определени работни натоварвания CXL може да се превърне в основната мрежова връзка, допълвайки или намалявайки нуждата от традиционни мрежови тъкани.

Б. NVLink

NVLink е патентована от NVIDIA високоскоростна мрежова връзка с ниска латентност, проектирана за директна комуникация между GPU и GPU-до-CPU в нейните платформи за ускорени изчисления.

NVLink е ключова част от решенията на NVIDIA за AI и HPC, като например нейните архитектури GB200 и GB300. Той е от решаващо значение за мащабирането на обучението на AI модели, като осигурява изключително бърз трансфер на данни между GPU.

NVLink показва тенденция към вертикална интеграция и специализирана производителност. Неговата патентована природа контрастира с отворени стандарти като RoCE или InfiniBand. Този дизайн максимизира производителността в рамките на хардуерния стек на един доставчик. Докато InfiniBand и RoCE се справят с общата мрежова комуникация между възли, NVLink оптимизира комуникацията вътре в и между GPU системи, създавайки многослойна архитектура на мрежови връзки, където различни технологии обслужват различни нужди.

В. Бъдещи скорости на Ethernet

Ethernet се е развил от 10 Mbps до 400 Gbps, а развитието продължава със стандарти 800GbE и 1.6TbE на хоризонта. Тези по-бързи скорости ще бъдат от съществено значение за следващото поколение приложения като квантови изчисления, напреднал AI и поглъщащи технологии.

Непрекъснатото увеличаване на скоростите на Ethernet директно облагодетелства RoCE. Тъй като RoCE е изграден върху Ethernet, той автоматично се възползва от тези напредъци, което му помага да остане конкурентен на InfiniBand. Растежът на облачните услуги вече стимулира внедряването на 200GbE и 400GbE, като следват 800GbE и 1.6TbE.

Непрекъснатата значимост на Ethernet и RoCE са тясно свързани. С напредването на скоростите на Ethernet, RoCE се превръща в още по-силен претендент за високопроизводителни центрове за данни, особено за организации, които искат да се възползват от съществуващите си инвестиции в Ethernet и да избегнат патентовани екосистеми.

Г. Дезагрегирани изчисления и фотоника

  • Дезагрегирани изчисления: Този нов подход цели да подобри ефективността на центровете за данни чрез отделяне на ресурси като изчисления, съхранение и памет от традиционните сървъри. След това тези ресурси се сглобяват отново в гъвкави пулове, свързани чрез напреднали мрежи. Ключов резултат е, че комуникацията, която някога се е случвала вътре в сървъра, сега преминава през мрежата, което драстично увеличава натоварването и прави изключително ниската латентност критична. Тази тенденция засилва нуждата от високопроизводителни мрежови връзки като RoCE и InfiniBand и стимулира разработването на нови като CXL.
  • Фотоника в мрежите на центровете за данни: Силициевата фотоника интегрира оптични компоненти върху силициеви чипове, което позволява високоскоростни оптични мрежови връзки с ниска мощност. Тази технология предлага много по-бързи скорости на трансфер на данни (над 100 Gbps), по-ниска латентност и по-добра енергийна ефективност от традиционната мед. Тя става съществена за посрещане на нарастващите изисквания за трафик в центровете за данни и за даване на възможност на следващото поколение високоскоростен Ethernet.

Връзката между тези тенденции е симбиотична. Дезагрегираните архитектури изискват напреднали мрежи, които мрежови връзки като RoCE, InfiniBand и CXL предоставят. На свой ред, постигането на необходимите скорости за тези мрежови връзки, особено за бъдещите стандарти 800GbE и 1.6TbE, ще разчита на технологии като силициевата фотоника.

VIII. Препоръки и заключение

Изборът на високопроизводителна мрежова връзка е критично стратегическо решение, което трябва да съответства на специфичните нужди, бюджет, инфраструктура и дългосрочна визия на организацията.

  • За максимална сурова производителност и критично важни HPC/AI: InfiniBand е безспорният златен стандарт. Неговият вграден RDMA, контрол на потока на базата на кредити и специално разработен дизайн осигуряват най-ниската латентност и най-високата пропускателна способност с гарантирана производителност без загуби. Организации с бюджет и експертиза трябва да изберат InfiniBand за мащабни клъстери, където всяка микросекунда е от значение.
  • За висока производителност с икономичност и интеграция с Ethernet: RoCE v2 е силна и все по-популярна алтернатива. Той предлага значителни подобрения в производителността спрямо TCP/IP и може да се доближи до производителността на InfiniBand, използвайки съществуваща Ethernet инфраструктура. Той е идеален за организации, които надграждат своите центрове за данни без цялостна промяна. Този избор обаче изисква ангажимент за внимателно конфигуриране и управление на Ethernet тъкан без загуби.
  • За нишови приложения или наследени RDMA през TCP среди: iWARP може да бъде подходящ в специфични случаи, особено когато използването на съществуваща TCP/IP инфраструктура е задължително и върховата производителност не е основната цел. Въпреки това, по-ниската му производителност и по-високата сложност на управление ограничават използването му в съвременни високопроизводителни внедрявания.
  • За мрежи с общо предназначение: Стандартният Ethernet/TCP/IP остава най-често срещаният и икономичен избор за среди без екстремни изисквания за производителност. Неговата лекота на използване и масов хардуер го правят идеален за общи корпоративни мрежи, LAN мрежи и стандартна облачна инфраструктура.
  • Обмисляне на нововъзникващи технологии за бъдеща устойчивост: Организациите трябва да следят развитието на CXL за паметно-центрични и дезагрегирани архитектури, тъй като той допълва традиционните мрежови тъкани, като оптимизира обединяването на ресурси. По същия начин NVLink е от решаващо значение за оптимизиране на комуникацията в рамките на системите на NVIDIA, наситени с GPU. Тези технологии показват диверсификация на мрежовите връзки за различни слоеве на изчислителната йерархия. Освен това, развитието на 800GbE и 1.6TbE Ethernet, заедно с напредъка във фотониката, ще продължи да прави RoCE още по-мощна опция.

В заключение, високопроизводителните мрежи са сложна област, движена от изискванията на AI, HPC и прехода към дезагрегирани изчисления. Докато InfiniBand води по абсолютна производителност за специализирани среди, RoCE v2 предоставя мощна и гъвкава алтернатива, която свързва предимствата на RDMA с вездесъщността на Ethernet. Появата на CXL и NVLink показва стратегическа диверсификация на мрежовите връзки, оптимизиращи различни комуникационни слоеве. Оптималното решение винаги ще бъде стратегически баланс между изискванията за производителност, разходите, съществуващата инфраструктура и далновидна визия.

Leave a comment

Вашият имейл адрес няма да бъде публикуван. Задължителните полета са отбелязани с *