Комплексный анализ высокопроизводительных межсоединений: RoCE v2, InfiniBand, iWARP и новые альтернативы для современных центров обработки данных

В рубрике Железо
Сохранить и поделиться:

I. Краткий обзор

Современные центры обработки данных (ЦОД) должны поддерживать требовательные рабочие нагрузки, такие как высокопроизводительные вычисления (HPC), искусственный интеллект/машинное обучение (ИИ/МО) и аналитика больших данных. Эти приложения требуют сверхнизкой задержки, высокой пропускной способности и минимального использования центрального процессора (ЦП). Традиционные сетевые протоколы, такие как TCP/IP, не могут удовлетворить эти потребности из-за своих высоких накладных расходов и задержек.

Технология прямого доступа к памяти (Remote Direct Memory Access, RDMA) является ключевой для создания высокопроизводительных межсоединений. RDMA позволяет компьютерам в сети передавать данные напрямую между их памятью, не задействуя операционные системы или ЦП (обмен «память-память»). Этот процесс значительно снижает задержку и нагрузку на процессор.

  • InfiniBand — это специализированная проприетарная сетевая фабрика, разработанная для достижения максимально возможной производительности и изначально обеспечивающая работу без потерь.
  • RoCE v2 (RDMA over Converged Ethernet) переносит преимущества RDMA в стандартные сети Ethernet, предлагая маршрутизируемый и более экономичный вариант, однако для обеспечения работы без потерь требуются специальные настройки.
  • iWARP — это еще одно решение RDMA-over-Ethernet, основанное на TCP, но оно менее распространено и обычно уступает RoCE v2 в производительности.

Выбор подходящего межсоединения — это стратегическое решение, которое зависит от требований к производительности, бюджета, существующей инфраструктуры и целей масштабирования. В этом отчете анализируются эти технологии, сравниваются со стандартным Ethernet/TCP/IP и рассматриваются новые альтернативы, такие как CXL и NVLink, чтобы помочь в принятии этого важного решения.

II. Введение в высокопроизводительные сети и RDMA

Современный цифровой мир характеризуется экспоненциальным ростом приложений, работающих с большими объемами данных, таких как высокопроизводительные вычисления (HPC), искусственный интеллект/машинное обучение (ИИ/МО) и аналитика больших данных. Этим рабочим нагрузкам необходимо быстро и эффективно перемещать огромные наборы данных между вычислительными узлами и хранилищами. Например, приложения ИИ очень чувствительны к целостности данных и требуют сетей без потерь, где одно утерянное сообщение может испортить весь процесс обучения. Трафик с высокой пропускной способностью также необходим этим приложениям для эффективной обработки данных.

Ограничения традиционного TCP/IP Ethernet для высокопроизводительных приложений

Хотя традиционный TCP/IP Ethernet надежен для общих сетевых задач, он имеет серьезные ограничения для высокопроизводительных приложений:

  • Высокая задержка и нагрузка на ЦП: Архитектура TCP/IP предполагает передачу данных через несколько программных уровней в ядре операционной системы, что требует значительного участия ЦП. Этот процесс добавляет существенную задержку (обычно десятки микросекунд) и создает высокую нагрузку на процессор. Для приложений, чувствительных к задержкам, это становится серьезным узким местом, поскольку ЦП тратит время на управление сетевым трафиком вместо выполнения приложения. Этот «налог на ЦП», вызванный переключением контекста и копированием данных, является основной причиной внедрения технологий RDMA, которые переносят обработку сетевых операций на аппаратный уровень и освобождают ЦП для задач приложения.
  • Ограничения пропускной способности: Несколько факторов ограничивают эффективную пропускную способность TCP, включая размер окна передачи, размер сегмента и потерю пакетов. Стандартный размер окна TCP (часто ограниченный 65 535 байтами) может препятствовать полному использованию каналов с высокой пропускной способностью, особенно в сетях с более высокой задержкой. Кроме того, основной механизм надежности TCP — повторная передача пакетов — вносит задержки и использует дополнительную пропускную способность, что снижает производительность в перегруженных сетях или сетях с потерями.
  • Проблемы масштабируемости: Хотя TCP/IP хорошо масштабируется для больших сетей, его архитектура отдает приоритет общей надежности, а не чистой производительности. Это делает его менее эффективным для сценариев, требующих экстремальной пропускной способности и минимальной задержки, таких как крупномасштабные кластеры HPC или инференс ИИ в реальном времени.

Основы прямого доступа к удаленной памяти (RDMA) и его ключевые преимущества

Технология прямого доступа к удаленной памяти (RDMA) была разработана для преодоления ограничений TCP/IP в высокопроизводительных средах. Ее основные преимущества заключаются в обходе ЦП и операционной системы при передаче данных:

  • Прямой доступ к памяти (Zero-Copy): RDMA передает данные напрямую из памяти одного компьютера в память другого, не задействуя ЦП или ОС ни одной из систем. Этот подход «нулевого копирования» (zero-copy) устраняет промежуточные буферы данных и переключения контекста, которые являются основными источниками накладных расходов в традиционных сетях.
  • Снижение задержки и нагрузки на ЦП: Обходя ЦП и ОС, RDMA кардинально сокращает задержку связи и освобождает ресурсы процессора. Это напрямую ведет к более быстрым вычислениям и лучшей обработке данных в реальном времени. Например, задержка на уровне приложения может снизиться с примерно 50 микросекунд при использовании TCP/IP до 2–5 микросекунд с RDMA.
  • Более эффективное использование пропускной способности: Эффективный путь передачи данных и сниженные накладные расходы RDMA позволяют приложениям лучше использовать доступную пропускную способность сети, что приводит к более высокой эффективной производительности.
  • Основные реализации: Основными технологиями RDMA, используемыми сегодня, являются InfiniBand, RoCE (версии 1 и 2) и iWARP.

III. RoCE v2: RDMA over Converged Ethernet

RoCE v2 — это значительный шаг вперед в области высокопроизводительных сетей, расширяющий преимущества RDMA на широко используемую экосистему Ethernet.

A. Архитектурные принципы

  • Эволюция от RoCE v1: RoCE v1 был протоколом уровня 2 (Ethertype 0x8915), что ограничивало его одним широковещательным доменом Ethernet и снижало его масштабируемость. RoCE v2 решает эту проблему, работая на сетевом уровне. Он инкапсулирует трафик RDMA в пакеты UDP/IP (используя UDP-порт назначения 4791), что делает его маршрутизируемым в IP-сетях уровня 3. Эта возможность маршрутизации является критически важным усовершенствованием, позволяющим использовать RoCE v2 в крупномасштабных ЦОД и облачных средах.
  • Интеграция RDMA в Ethernet: RoCE предоставляет метод для выполнения RDMA в стандартной сети Ethernet. Он фактически заменяет сетевой уровень InfiniBand заголовками IP и UDP, сохраняя при этом основной транспортный уровень InfiniBand и протокол RDMA. Такая архитектура позволяет RoCE использовать существующую инфраструктуру Ethernet.
  • Формат пакета: Пакет RoCE v2 включает заголовок IP и заголовок UDP, которые инкапсулируют транспортный протокол RDMA. Хотя UDP не гарантирует порядок доставки пакетов, стандарт RoCE v2 требует, чтобы пакеты с одинаковым портом источника и адресом назначения не переупорядочивались.
  • Компромисс «лучшее из двух миров»: Архитектура RoCE v2 представляет собой стратегический компромисс, нацеленный на обеспечение высокой производительности RDMA на гибкой, экономичной и повсеместно распространенной платформе Ethernet. Хотя этот подход предлагает широкую совместимость, он создает ключевую проблему: обеспечение производительности без потерь, необходимой для RDMA, в сети Ethernet, которая по своей природе подвержена потерям.

B. Профиль производительности

  • Задержка: Хост-адаптеры (HCA) RoCE могут достигать очень низких задержек, вплоть до 1,3 микросекунды. На уровне приложений RoCE снижает задержку примерно до 5 микросекунд, что является огромным улучшением по сравнению с 50 микросекундами, типичными для TCP/IP. Хотя InfiniBand предлагает несколько меньшую «родную» задержку, производительность RoCE превосходна для приложений реального времени.
  • Пропускная способность: RoCE v2 поддерживает высокую пропускную способность со скоростью до 400 Гбит/с на порт.
  • Разгрузка ЦП: Как и другие протоколы RDMA, RoCE обходит ЦП при передаче данных. Эта разгрузка освобождает ценные ресурсы ЦП для вычислительно-интенсивных задач вместо обработки сетевого трафика.
  • Производительность без потерь: Чтобы соответствовать производительности InfiniBand, RoCE зависит от сети Ethernet без потерь. Обычно это достигается путем реализации функций Data Center Bridging (DCB), в частности Priority Flow Control (PFC) и Explicit Congestion Notification (ECN).

C. Инфраструктура и управление

  • Требования к аппаратному/программному обеспечению: RoCE работает со стандартным оборудованием Ethernet, таким как коммутаторы и кабели, что позволяет организациям использовать свою существующую инфраструктуру. Однако на конечных точках требуются хост-адаптеры (HCA) с поддержкой RoCE. Программная поддержка является зрелой, с реализациями в Mellanox OFED 2.3+ и интеграцией в ядро Linux v4.5+.
  • Настройка сети без потерь: Хотя RoCE использует стандартный Ethernet, создание сети DCB без потерь может быть сложнее, чем настройка сети InfiniBand. Каждый компонент, от конечных точек до коммутаторов, должен быть тщательно настроен. Это включает настройку Priority Flow Control (PFC), Enhanced Transmission Selection (ETS) и механизмов уведомления о перегрузке. Для работы в сетях уровня 3 эти характеристики отсутствия потерь должны поддерживаться на всех маршрутизаторах, часто путем сопоставления настроек приоритета уровня 2 с настройками QoS DSCP уровня 3.
  • Аспекты управления: RoCE можно управлять с помощью стандартных инструментов Ethernet. Однако обеспечение стабильной производительности без потерь и управление перегрузками в крупномасштабных развертываниях RoCE v2 может быть сложной задачей и требует специальных знаний.
  • Скрытая цена «экономичности»: RoCE часто называют «экономичным», поскольку он может использовать существующую инфраструктуру Ethernet, но это упрощение. Для достижения производительности, сравнимой с InfiniBand, требуется идеально настроенная сеть Ethernet без потерь. Сложность настройки функций Data Center Bridging (DCB), таких как PFC и ECN, может быть намного выше, чем настройка сети InfiniBand. Эта сложность приводит к более высоким операционным затратам на проектирование, устранение неисправностей и управление сетью, а также может потребовать более дорогих коммутаторов Ethernet. В результате первоначальная экономия на оборудовании от RoCE может быть нивелирована этими более высокими операционными расходами. Для точного сравнения необходим тщательный анализ совокупной стоимости владения (TCO).

D. Ключевые области применения

RoCE v2 — отличное решение для многих ЦОД и корпоративных приложений. Он особенно хорошо подходит для сред, требующих сверхнизкой задержки и высокой пропускной способности, таких как рабочие нагрузки ИИ, высокочастотная торговля и аналитика в реальном времени. Он также повышает производительность приложений, которые сильно зависят от баз данных или файлового ввода-вывода. Кроме того, RoCE v2 способствует обеспечению непрерывности бизнеса и аварийному восстановлению, позволяя быстро и эффективно реплицировать данные. Его широкое использование в кластерах для обучения ИИ подчеркивает его важность в современных вычислениях.

IV. InfiniBand: специализированная высокопроизводительная фабрика

InfiniBand — это высокопроизводительное межсоединение высшего класса, изначально разработанное для обеспечения непревзойденной скорости, минимальной задержки и высокой надежности в требовательных вычислительных средах.

A. Архитектурные принципы

  • Встроенный RDMA: InfiniBand был создан с интеграцией RDMA во весь его стек протоколов, начиная с физического уровня. Такая архитектура, разработанная с нуля, обеспечивает высокую эффективность операций RDMA, создавая прямые и защищенные каналы данных между узлами без участия ЦП.
  • Коммутируемая фабричная топология: InfiniBand использует коммутируемую фабричную топологию для прямых соединений точка-точка между устройствами. Архитектура включает хост-адаптеры (HCA) на процессорах и целевые канальные адаптеры (TCA) на периферийных устройствах, что обеспечивает эффективную связь.
  • Управление потоком на основе кредитов: Основной особенностью InfiniBand является управление потоком на основе кредитов. Этот алгоритм на аппаратном уровне гарантирует связь без потерь, обеспечивая, что отправитель передает данные только в том случае, если у получателя достаточно места в буфере (кредитов) для их приема. Эта врожденная надежность предотвращает потерю пакетов и отличает InfiniBand от технологий, которым для обеспечения отсутствия потерь требуются конфигурации на более высоких уровнях.
  • Проприетарные стандарты: InfiniBand следует проприетарным стандартам, определенным InfiniBand Trade Association (IBTA), основанной в 1999 году. В экосистеме доминирует NVIDIA (через приобретение Mellanox), ведущий производитель адаптеров и коммутаторов InfiniBand.

B. Профиль производительности

  • Сверхнизкая задержка: InfiniBand стабильно предлагает самую низкую задержку. Задержки адаптеров могут составлять всего 0,5 микросекунды, а задержка между портами коммутатора — около 100 наносекунд, что значительно ниже 230 наносекунд у сопоставимых коммутаторов Ethernet. На уровне приложений InfiniBand может достигать задержек до 2 микросекунд по сравнению с 50 микросекундами у TCP/IP.
  • Возможности высокой пропускной способности: InfiniBand поддерживает чрезвычайно высокие скорости передачи данных. Современные версии, такие как HDR и NDR, предлагают до 200 Гбит/с и 400 Гбит/с на линию. Агрегированные каналы могут достигать еще более высокой пропускной способности, до 800 Гбит/с (NDR) и даже 1,6 Тбит/с (XDR).
  • Эффективность ЦП: Ключевой сильной стороной InfiniBand является его способность обеспечивать сверхнизкую задержку и чрезвычайно высокую пропускную способность практически без использования ЦП. Эта разгрузка сетевой обработки является критическим преимуществом для вычислительно-интенсивных рабочих нагрузок.
  • Производительность по замыслу против производительности по настройке: InfiniBand и RoCE имеют фундаментальное различие в подходе. InfiniBand был разработан с нуля для RDMA, его физический и транспортный уровни спроектированы для обеспечения надежности на аппаратном уровне, включая встроенный алгоритм на основе кредитов для связи без потерь. В отличие от этого, RoCE работает на стандартном Ethernet и зависит от конфигурации таких функций, как Priority Flow Control (PFC) и Explicit Congestion Notification (ECN), для создания сети без потерь. Это означает, что InfiniBand обеспечивает гарантированно высокую производительность «из коробки», в то время как производительность RoCE зависит от качества базовой конфигурации Ethernet.

C. Инфраструктура и управление

  • Специализированное оборудование: InfiniBand требует специализированного оборудования, включая выделенные хост-адаптеры (HCA), коммутаторы, маршрутизаторы и проприетарные кабели. Обычно это приводит к более высоким первоначальным инвестициям по сравнению с решениями на базе Ethernet.
  • Централизованное управление: Сети InfiniBand управляются центральным менеджером подсети (Subnet Manager, SM), который рассчитывает и распределяет таблицы пересылки и управляет конфигурациями, такими как разделы и качество обслуживания (QoS). Этот централизованный подход может упростить управление в больших кластерах после первоначальной настройки.
  • Специальные знания: Развертывание и обслуживание сетей InfiniBand обычно требуют специальных знаний, что может увеличить операционные расходы и создать более крутую кривую обучения для ИТ-персонала.
  • Экосистема: Экосистема InfiniBand является зрелой, но в ней доминирует NVIDIA/Mellanox.

D. Ключевые области применения

InfiniBand является отраслевым стандартом для сред высокопроизводительных вычислений (HPC) и самым быстрорастущим межсоединением для этих приложений. Это основная технология, рекомендованная IBTA. Ее сверхнизкая задержка и высокая пропускная способность необходимы для требовательных рабочих нагрузок, таких как крупномасштабное обучение моделей ИИ/МО, аналитика больших данных и операции с массивными базами данных. Она также имеет решающее значение для крупных симуляций (например, прогнозирования погоды) и высокочастотных финансовых услуг, где скорость и целостность данных критичны. По состоянию на июнь 2022 года 62% из 100 лучших суперкомпьютеров в мире использовали InfiniBand.

V. iWARP: RDMA over Standard TCP/IP

iWARP (Internet Wide Area RDMA Protocol) — это еще один метод реализации RDMA, примечательный использованием стандартного набора протоколов TCP/IP.

A. Архитектурные принципы

  • RDMA over TCP/IP: iWARP — это протокол, реализующий RDMA в стандартных IP-сетях. В отличие от RoCE, который использует UDP, iWARP построен поверх надежных транспортных протоколов, таких как TCP и SCTP.
  • Ключевые компоненты: Работа iWARP зависит от нескольких компонентов. Протокол прямого размещения данных (Direct Data Placement Protocol, DDP) обеспечивает передачу без копирования, размещая данные непосредственно в памяти приложения. Протокол прямого доступа к удаленной памяти (Remote Direct Memory Access Protocol, RDMAP) предоставляет услуги для операций чтения и записи RDMA. Для включения DDP поверх TCP необходим специальный адаптационный уровень — кадрирование с выравниванием по маркеру PDU (Marker PDU Aligned, MPA).
  • Надежность: Уникальной особенностью iWARP является то, что его надежность обеспечивается базовым протоколом TCP. Это отличает его от RoCE v2, который использует UDP и требует внешних механизмов, таких как Data Center Bridging (DCB), для обеспечения надежности. В результате iWARP поддерживает только надежную связь с установлением соединения.

B. Профиль производительности

  • Сравнительная задержка и пропускная способность: Хотя iWARP имеет меньшую задержку, чем традиционный TCP/IP, его производительность в целом хуже, чем у RoCE. В 2011 году самая низкая задержка HCA для iWARP составляла 3 микросекунды, в то время как HCA для RoCE достигали 1,3 микросекунды. Тесты производительности постоянно показывают, что RoCE доставляет сообщения намного быстрее, чем iWARP, с пропускной способностью более чем в 2 раза выше при 40GbE и в 5 раз выше при 10GbE.
  • Разгрузка ЦП: Как и другие протоколы RDMA, iWARP минимизирует нагрузку на ЦП, обеспечивая прямую передачу данных в память. Он может использовать механизмы разгрузки TCP (TCP Offload Engines, TOE) с оборудованием RDMA для достижения результатов без копирования и дальнейшего снижения участия ЦП.

C. Инфраструктура и управление

  • Совместимость со стандартным Ethernet: Основным преимуществом iWARP является его способность работать в стандартной инфраструктуре Ethernet с минимальными изменениями в существующей сети. Это позволяет организациям использовать свои текущие инвестиции.
  • Требования к оборудованию: Несмотря на совместимость со стандартными коммутаторами Ethernet, iWARP все же требует наличия сетевых карт с поддержкой iWARP на конечных точках.
  • Аспекты интеграции: iWARP интегрирован в основные операционные системы, такие как Microsoft Windows Server и современные ядра Linux. Это обеспечивает поддержку таких приложений, как SMB Direct, iSCSI Extensions for RDMA (iSER) и Network File System over RDMA (NFS over RDMA).
  • Проблемы управления: Управление трафиком iWARP может быть сложным. Он использует то же пространство портов, что и TCP, что усложняет управление потоками и затрудняет идентификацию трафика RDMA. В целом, iWARP считается более сложным в управлении, чем RoCE.

D. Актуальность на рынке

  • Ограниченное внедрение: iWARP является «нечасто» или «менее часто используемой» реализацией RDMA по сравнению с InfiniBand и RoCE v2. Его решения имели «ограниченный успех» из-за проблем с реализацией и развертыванием.
  • Парадокс зависимости от TCP: Выбор архитектуры iWARP, заключающийся в наслоении RDMA поверх TCP, обеспечивает встроенную надежность и совместимость, но, как ни парадоксально, мешает ему в полной мере достичь основных преимуществ RDMA. Внутренние накладные расходы протокола TCP, даже при аппаратной разгрузке, по-видимому, не позволяют iWARP достичь сверхнизкой задержки и высокой пропускной способности InfiniBand или RoCE. Этот компромисс в производительности привел к его ограниченному распространению на рынке.

VI. Сравнительный анализ: RoCE v2, InfiniBand, iWARP и стандартный Ethernet

Детальное сравнение производительности, инфраструктуры и операционных метрик является ключом к выбору правильного высокопроизводительного межсоединения.

A. Тесты производительности

Производительность этих межсоединений значительно различается, особенно по задержке, пропускной способности и использованию ЦП.

  • Задержка:
    • InfiniBand: Обеспечивает самую низкую задержку. Задержка между портами коммутатора составляет около 100 наносекунд, а задержка адаптера — от 0,5 до 1,3 микросекунды. Задержка на уровне приложения может достигать 2 микросекунд.
    • RoCE v2: Обеспечивает сверхнизкую задержку. Задержка коммутатора Ethernet составляет около 230 наносекунд, а задержка HCA может быть всего 1,3 микросекунды. Задержка на уровне приложения обычно составляет около 5 микросекунд.
    • iWARP: Имеет более высокую задержку, чем RoCE, с задержкой HCA около 3 микросекунд (данные 2011 года). Он стабильно уступает RoCE в производительности.
    • Стандартный TCP/IP: Имеет самую высокую задержку, с односторонней задержкой от 10 до 55 миллисекунд. Задержка на уровне приложения обычно составляет около 50 микросекунд.
  • Пропускная способность:
    • InfiniBand: Поддерживает очень высокую пропускную способность. Современные версии, такие как NDR, предлагают до 400 Гбит/с на порт, а XDR достигает до 800 Гбит/с. Будущий GDR, по прогнозам, достигнет 1,6 Тбит/с.
    • RoCE v2: Способен обеспечивать высокую пропускную способность, поддерживая до 400 Гбит/с на порт.
    • iWARP: Обычно имеет меньшую пропускную способность, чем RoCE.
    • Стандартный TCP/IP: Пропускная способность часто ограничивается накладными расходами протокола и повторными передачами, что затрудняет эффективное использование каналов с высокой пропускной способностью.
  • Разгрузка ЦП:
    • InfiniBand, RoCE v2, iWARP: Все три технологии RDMA значительно разгружают ЦП, обходя операционную систему и освобождая ресурсы процессора для других задач.
    • Стандартный TCP/IP: Вызывает высокую нагрузку на ЦП, поскольку ядро активно участвует в обработке данных.
  • Механизм отсутствия потерь:
    • InfiniBand: Имеет встроенный, аппаратно-реализованный механизм управления потоком на основе кредитов, который гарантирует связь без потерь.
    • RoCE v2: Зависит от конфигурации Ethernet без потерь, используя функции Data Center Bridging (DCB), такие как PFC и ECN. Также имеет сквозной механизм надежной доставки с аппаратными повторными передачами.
    • iWARP: Использует встроенный надежный транспорт TCP для целостности данных.
    • Стандартный TCP/IP: Использует модель доставки с максимальными усилиями (best-effort), полагаясь на повторные передачи на более высоких уровнях для обеспечения надежности, что добавляет задержку.

Следующая таблица обобщает характеристики производительности:

Характеристика InfiniBand RoCE v2 iWARP Стандартный Ethernet/TCP/IP
Основная технология Встроенный RDMA RDMA over Ethernet (UDP/IP) RDMA over Ethernet (TCP/IP) Традиционный многоуровневый протокол
Типичная задержка приложения (мкс) 2 5 >3 (HCA 2011 г.) 50
Задержка между портами коммутатора (нс) 100 230 Н/Д (зависит от Ethernet) Обычно выше, варьируется
Макс. пропускная способность (Гбит/с на порт/канал) 400 (NDR), 800 (XDR), 1.6T (GDR) 400 Обычно ниже, чем у RoCE 400+ (но ограничена накладными расходами протокола)
Нагрузка на ЦП Почти нулевая Очень низкая Низкая Высокая
Механизм отсутствия потерь Встроенное управление потоком на основе кредитов Требует Ethernet без потерь (PFC, ECN) Надежный транспорт TCP Best-Effort, зависит от повторных передач
Маршрутизируемость (L2/L3) L3 (через Subnet Manager) L3 (маршрутизируемый RoCE) L3 L3 (стандартная IP-маршрутизация)

B. Инфраструктура и экосистема

  • Зависимость от оборудования:
    • InfiniBand: Требует полного набора специализированного оборудования, включая HCA InfiniBand, коммутаторы и проприетарные кабели.
    • RoCE v2: Требует HCA с поддержкой RoCE, но работает на стандартных коммутаторах и кабелях Ethernet, что позволяет интегрироваться с существующими сетями.
    • iWARP: Требует сетевых карт с поддержкой iWARP, но может использовать стандартные коммутаторы Ethernet.
    • Стандартный Ethernet: Использует широко доступные, коммерческие сетевые карты и коммутаторы Ethernet.
  • Привязка к производителю:
    • InfiniBand: Экосистема ограничена и в ней доминирует Mellanox (NVIDIA), что может вызывать опасения по поводу привязки к одному производителю.
    • RoCE v2: Выигрывает от большой и конкурентной экосистемы Ethernet с несколькими производителями. Некоторые предлагают сетевые карты «Universal RDMA», поддерживающие как RoCE, так и iWARP, что снижает привязку.
    • iWARP: Также выигрывает от широкой экосистемы Ethernet, с поддержкой от таких производителей, как Intel и Chelsio.
  • Совместимость:
    • InfiniBand: Будучи проприетарным стандартом, все компоненты должны соответствовать спецификациям IBTA для обеспечения их совместной работы.
    • RoCE v2: Его основа на стандартном Ethernet обеспечивает более широкую совместимость и более простую интеграцию с существующими сетями.
    • iWARP: Основан на стандартных RFC IETF для TCP/IP, что обеспечивает высокую совместимость в стандартных IP-сетях.

C. Экономическая эффективность

  • Первоначальные инвестиции:
    • InfiniBand: Обычно требует более высоких первоначальных инвестиций из-за специализированного оборудования и лицензирования. Для больших кластеров ИИ коммутаторы InfiniBand могут быть значительно дороже коммутаторов RoCE.
    • RoCE v2: Часто является более экономичным вариантом, поскольку может интегрироваться с существующей инфраструктурой Ethernet, снижая затраты на новое оборудование. Экономия на коммутаторах для больших кластеров ИИ может быть существенной (от 49% до 70% по сравнению с InfiniBand).
    • iWARP: Использует стандартные коммутаторы Ethernet, но требует специализированных адаптеров, что все еще может быть значительной статьей расходов.
    • Стандартный Ethernet: Как правило, самый дешевый вариант из-за его коммерческого оборудования.
  • Совокупная стоимость владения (TCO):
    • InfiniBand: Имеет тенденцию к более высокой TCO из-за специализированного оборудования, обслуживания и необходимости обучения персонала проприетарной технологии.
    • RoCE v2: Может иметь более низкую TCO, но это условно. Сложность настройки и обслуживания фабрики Ethernet без потерь может значительно увеличить операционные расходы. Хотя начальные затраты на оборудование могут быть ниже, специальные знания и усилия, необходимые для проектирования, устранения неисправностей и обслуживания, могут нивелировать эту экономию. Таким образом, «экономичность» зависит как от цены оборудования, так и от опыта и управленческой нагрузки организации.
    • iWARP: Проблемы интеграции и управления могут повлиять на его общую TCO.

Следующая таблица представляет сравнительный обзор инфраструктуры и соображений по стоимости:

Характеристика InfiniBand RoCE v2 iWARP Стандартный Ethernet/TCP/IP
Требуемое сетевое оборудование Выделенные NIC IB, коммутаторы IB, кабели IB NIC с поддержкой RoCE, стандартные коммутаторы/кабели Ethernet NIC с поддержкой iWARP, стандартные коммутаторы/кабели Ethernet Стандартные NIC Ethernet, коммутаторы/кабели Ethernet
Совместимость сети Проприетарная (стандарт IBTA) Стандартный Ethernet (IEEE) Стандартный Ethernet (RFC IETF) Стандартный Ethernet (IEEE)
Сложность управления Высокая (специализированный SM) Высокая (настройка Ethernet без потерь) Выше, чем у RoCE Низкая
Начальная стоимость оборудования (относительная) Высокая Умеренная (использует существующее) Умеренная (специализированные NIC) Низкая
Совокупная стоимость владения (относительная) Выше Ниже (при условии эффективного управления) Варьируется (проблемы интеграции) Самая низкая
Экосистема поставщиков Ограниченная (доминирует NVIDIA/Mellanox) Широкая (множество поставщиков Ethernet) Широкая (множество поставщиков Ethernet) Очень широкая

D. Масштабируемость и гибкость

  • Возможности маршрутизации:
    • InfiniBand: Использует коммутируемую фабрику с централизованным управлением маршрутизацией через Subnet Manager (SM). Он обладает высокой масштабируемостью, поддерживая кластеры с более чем 100 000 узлов.
    • RoCE v2: Его инкапсуляция в UDP/IP позволяет маршрутизировать его через IP-сети уровня 3, что делает его масштабируемым в больших сетях и облачных средах. Он также поддерживает ECMP для эффективной балансировки нагрузки.
    • iWARP: Маршрутизируется в IP-сетях.
    • Стандартный Ethernet: Высокомасштабируемый и гибкий, но может требовать расширенных конфигураций, таких как архитектуры spine-leaf, для достижения эффективности уровня HPC.
  • Сетевые топологии:
    • InfiniBand: Оптимизирован для кластеров HPC/ИИ, поддерживая высокопроизводительные топологии, такие как Fat Tree, Dragonfly+ и многомерный Torus.
    • RoCE v2: Его маршрутизация на основе IP делает его адаптируемым практически к любой сетевой топологии.
    • Стандартный Ethernet: Поддерживает широкий спектр топологий, включая звезду и ячеистую.

E. Надежность и управление перегрузками

  • Надежность:
    • InfiniBand: Обеспечивает встроенную надежность на аппаратном уровне с помощью управления потоком на основе кредитов, гарантируя связь без потерь.
    • RoCE v2: Зависит от конфигурации Ethernet без потерь с использованием PFC и ETS. Он также включает сквозной механизм надежной доставки с аппаратной повторной передачей пакетов.
    • iWARP: Выигрывает от встроенной надежности TCP, которая обеспечивает исправление ошибок и повторные передачи.
    • Стандартный TCP/IP: Сосредоточен на надежности через повторные передачи, что может добавлять значительную задержку и снижать пропускную способность.
  • Управление перегрузками:
    • InfiniBand: Определяет свои собственные механизмы управления перегрузками на основе маркировки FECN/BECN.
    • RoCE v2: Реализует протокол управления перегрузками, используя биты IP ECN и пакеты уведомления о перегрузке (CNP). Также используются отраслевые практики, такие как DCQCN.
    • iWARP: Полагается на устоявшиеся алгоритмы управления перегрузками TCP.

F. Применимость для приложений

  • InfiniBand: Идеальный выбор для сред, требующих максимальной пропускной способности данных и минимальной задержки. Это включает научные исследования, финансовое моделирование, крупномасштабные кластеры HPC и самые требовательные рабочие нагрузки по обучению ИИ/МО.
  • RoCE v2: Предпочтителен для предприятий, желающих использовать свою существующую инфраструктуру Ethernet, сохраняя при этом высокую производительность. Он хорошо подходит для сетей хранения данных, аналитики в реальном времени и облачных сервисов, предлагая баланс производительности и стоимости.
  • iWARP: Может рассматриваться для нишевых приложений, где существующая инфраструктура TCP/IP является строгим требованием, а сверхнизкая задержка не является главным приоритетом. Он подходит для таких приложений, как NVMeoF, iSER, SMB Direct и NFS over RDMA, или как недорогой вариант для тестовых сред.
  • Стандартный Ethernet/TCP/IP: Остается лучшим выбором для сетей общего назначения, таких как корпоративные ЛВС и облачная инфраструктура, где экстремальная производительность HPC/ИИ не является основной целью.
  • Трилемма «производительность-стоимость-сложность»: Этот анализ выявляет фундаментальный компромисс при выборе межсоединения: трилемму между производительностью, стоимостью и сложностью. InfiniBand предлагает максимальную производительность и встроенную надежность, но по более высокой цене. RoCE v2 обеспечивает производительность, близкую к InfiniBand, в сетях Ethernet, потенциально снижая затраты на оборудование, но добавляя значительную сложность в настройке. iWARP предлагает RDMA через TCP, но с более низкой производительностью. Стандартный Ethernet является экономически эффективным, но ему не хватает производительности для требовательных рабочих нагрузок. Единого «лучшего» решения не существует; правильный выбор требует балансировки этих трех факторов на основе конкретных потребностей и возможностей.

Следующая таблица описывает применимость каждой технологии для различных приложений:

Технология Основные сценарии использования Наиболее подходит для Менее подходит для
InfiniBand HPC, обучение ИИ/МО, аналитика больших данных, финансовые услуги (арбитраж) Сред, требующих абсолютно минимальной задержки, максимальной пропускной способности и встроенных гарантий отсутствия потерь Чувствительных к стоимости корпоративных сетей общего назначения, сред без специализированных ИТ-специалистов
RoCE v2 ЦОД, облачные сервисы, сети хранения данных, аналитика в реальном времени, инференс ИИ/МО Организаций, использующих существующую инфраструктуру Ethernet для высокой производительности; баланс стоимости и производительности Сред, где встроенные гарантии отсутствия потерь не подлежат обсуждению без глубоких знаний в области конфигурации
iWARP NVMeoF, iSER, SMB Direct, NFS over RDMA, тестовые/разработческие среды Специфических приложений, требующих RDMA поверх существующей сети TCP/IP, где пиковая производительность не критична Крупномасштабных кластеров HPC/ИИ, чувствительных к задержке приложений реального времени
Стандартный Ethernet/TCP/IP Корпоративные сети общего назначения, ЛВС, подключение к интернету, облачная инфраструктура Повсеместных, экономичных и гибких сетей общего назначения Высокопроизводительных вычислений, обучения ИИ/МО и других чувствительных к задержке, интенсивно использующих ЦП рабочих нагрузок

VII. Новые высокопроизводительные межсоединения и будущие тенденции

Ландшафт высокопроизводительных сетей постоянно меняется под влиянием рабочих нагрузок с интенсивным использованием данных и необходимости повышения эффективности. Помимо устоявшихся технологий RDMA, новые межсоединения и тенденции формируют будущее центров обработки данных.

A. Compute Express Link (CXL)

CXL — это современное межсоединение, построенное на физическом уровне PCIe и предназначенное для вычислительных систем общего назначения. Его основная цель — обеспечить быструю и бесшовную связь между ЦП и ускорителями, такими как ГП и ПЛИС.

Ключевые особенности CXL включают высокоскоростную передачу данных, широкую совместимость и эффективное совместное использование памяти благодаря когерентности кэша. Он поддерживает три типа устройств (для ускорителей, когерентных по кэшу устройств и расширителей памяти) и гибкие топологии. CXL/PCIe Gen5 предлагает пиковую пропускную способность 512 Гбит/с при задержке около 500 наносекунд. Хотя у InfiniBand задержка ниже (около 100 наносекунд), CXL превосходит его в доступе к памяти с низкой задержкой, где критически важна когерентность кэша.

Важным событием стало слияние консорциумов Gen-Z и CXL в 2022 году, что делает CXL единственным отраслевым стандартом для этого класса межсоединений, ориентированных на память.

CXL представляет собой сдвиг от традиционных сетей между узлами (таких как RoCE и InfiniBand) к когерентности памяти и дезагрегации ресурсов. Это означает, что для определенных рабочих нагрузок CXL может стать основным межсоединением, дополняя или уменьшая потребность в традиционных сетевых фабриках.

B. NVLink

NVLink — это проприетарное межсоединение NVIDIA с высокой пропускной способностью и низкой задержкой, разработанное для прямой связи ГП-ГП и ГП-ЦП в ее платформах для ускоренных вычислений.

NVLink является ключевой частью решений NVIDIA для ИИ и HPC, таких как ее архитектуры GB200 и GB300. Он имеет решающее значение для масштабирования обучения моделей ИИ, обеспечивая чрезвычайно быструю передачу данных между ГП.

NVLink демонстрирует тенденцию к вертикальной интеграции и специализированной производительности. Его проприетарный характер контрастирует с открытыми стандартами, такими как RoCE или InfiniBand. Такая архитектура максимизирует производительность в рамках аппаратного стека одного поставщика. В то время как InfiniBand и RoCE обеспечивают общую сетевую связь между узлами, NVLink оптимизирует связь внутри и между системами ГП, создавая многоуровневую архитектуру межсоединений, где разные технологии обслуживают разные потребности.

C. Будущие скорости Ethernet

Ethernet эволюционировал от 10 Мбит/с до 400 Гбит/с, и развитие продолжается с появлением стандартов 800GbE и 1.6TbE на горизонте. Эти более высокие скорости будут необходимы для приложений следующего поколения, таких как квантовые вычисления, продвинутый ИИ и иммерсивные технологии.

Постоянное увеличение скоростей Ethernet напрямую выгодно для RoCE. Поскольку RoCE построен на базе Ethernet, он автоматически выигрывает от этих достижений, что помогает ему оставаться конкурентоспособным с InfiniBand. Рост облачных сервисов уже стимулирует развертывание 200GbE и 400GbE, а следом идут 800GbE и 1.6TbE.

Актуальность Ethernet и RoCE тесно связаны. По мере роста скоростей Ethernet, RoCE становится еще более сильным кандидатом для высокопроизводительных ЦОД, особенно для организаций, которые хотят использовать свои существующие инвестиции в Ethernet и избежать проприетарных экосистем.

D. Дезагрегированные вычисления и фотоника

  • Дезагрегированные вычисления: Этот новый подход направлен на повышение эффективности ЦОД путем отделения ресурсов, таких как вычисления, хранение и память, от традиционных серверов. Затем эти ресурсы пересобираются в гибкие пулы, соединенные передовыми сетями. Ключевым результатом является то, что связь, которая раньше происходила внутри сервера, теперь проходит через сеть, что резко увеличивает нагрузку и делает сверхнизкую задержку критически важной. Эта тенденция усиливает потребность в высокопроизводительных межсоединениях, таких как RoCE и InfiniBand, и стимулирует разработку новых, таких как CXL.
  • Фотоника в сетях ЦОД: Кремниевая фотоника интегрирует оптические компоненты на кремниевые чипы, обеспечивая высокоскоростные оптические межсоединения с низким энергопотреблением. Эта технология предлагает гораздо более высокие скорости передачи данных (свыше 100 Гбит/с), меньшую задержку и лучшую энергоэффективность, чем традиционная медь. Она становится необходимой для удовлетворения растущих требований к трафику в ЦОД и для обеспечения следующего поколения высокоскоростного Ethernet.

Взаимосвязь между этими тенденциями является симбиотической. Дезагрегированные архитектуры требуют передовых сетей, которые обеспечивают межсоединения, такие как RoCE, InfiniBand и CXL. В свою очередь, достижение необходимых скоростей для этих межсоединений, особенно для будущих стандартов 800GbE и 1.6TbE, будет зависеть от таких технологий, как кремниевая фотоника.

VIII. Рекомендации и заключение

Выбор высокопроизводительного межсоединения — это критически важное стратегическое решение, которое должно соответствовать конкретным потребностям организации, ее бюджету, инфраструктуре и долгосрочному видению.

  • Для максимальной производительности и критически важных задач HPC/ИИ: InfiniBand является безусловным золотым стандартом. Его встроенный RDMA, управление потоком на основе кредитов и специализированная архитектура обеспечивают самую низкую задержку и самую высокую пропускную способность с гарантированной производительностью без потерь. Организациям с соответствующим бюджетом и опытом следует выбирать InfiniBand для крупномасштабных кластеров, где важна каждая микросекунда.
  • Для высокой производительности при оптимальной стоимости и интеграции с Ethernet: RoCE v2 является сильной и все более популярной альтернативой. Он предлагает значительный прирост производительности по сравнению с TCP/IP и может приближаться к производительности InfiniBand, используя существующую инфраструктуру Ethernet. Он идеально подходит для организаций, модернизирующих свои ЦОД без полной перестройки. Однако этот выбор требует готовности к тщательной настройке и управлению фабрикой Ethernet без потерь.
  • Для нишевых приложений или сред с устаревшим RDMA over TCP: iWARP может подойти в определенных случаях, особенно там, где использование существующей инфраструктуры TCP/IP является обязательным, а пиковая производительность не является основной целью. Однако его более низкая производительность и более высокая сложность управления ограничивают его использование в современных высокопроизводительных развертываниях.
  • Для сетей общего назначения: Стандартный Ethernet/TCP/IP остается наиболее распространенным и экономически эффективным выбором для сред без экстремальных требований к производительности. Его простота использования и коммерческое оборудование делают его идеальным для корпоративных сетей общего назначения, ЛВС и стандартной облачной инфраструктуры.
  • Учет новых технологий для обеспечения будущего: Организациям следует следить за развитием CXL для архитектур, ориентированных на память и дезагрегацию, поскольку он дополняет традиционные сетевые фабрики, оптимизируя пулы ресурсов. Аналогично, NVLink критически важен для оптимизации связи в системах NVIDIA с большим количеством ГП. Эти технологии демонстрируют диверсификацию межсоединений для разных уровней вычислительной иерархии. Кроме того, развитие 800GbE и 1.6TbE Ethernet, наряду с достижениями в области фотоники, будет продолжать делать RoCE еще более мощным вариантом.

В заключение, сфера высокопроизводительных сетей сложна и определяется требованиями ИИ, HPC и переходом к дезагрегированным вычислениям. В то время как InfiniBand лидирует по абсолютной производительности в специализированных средах, RoCE v2 представляет собой мощную и гибкую альтернативу, которая сочетает преимущества RDMA с повсеместным распространением Ethernet. Появление CXL и NVLink указывает на стратегическую диверсификацию межсоединений, оптимизирующих различные уровни связи. Оптимальное решение всегда будет стратегическим балансом между требованиями к производительности, стоимостью, существующей инфраструктурой и видением будущего.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *