I. 요약
최신 데이터 센터는 고성능 컴퓨팅(HPC), 인공지능/머신러닝(AI/ML), 빅데이터 분석과 같은 까다로운 워크로드를 지원해야 합니다. 이러한 애플리케이션은 초저지연, 고대역폭, 최소한의 CPU 사용률을 요구합니다. TCP/IP와 같은 전통적인 네트워킹 프로토콜은 높은 오버헤드와 지연 시간 때문에 이러한 요구를 충족할 수 없습니다.
원격 직접 메모리 접근(RDMA)은 고성능 인터커넥트를 가능하게 하는 핵심 기술입니다. RDMA는 네트워크로 연결된 컴퓨터가 운영 체제나 CPU를 거치지 않고 메모리 간에 직접 데이터를 전송(메모리 대 메모리)할 수 있도록 합니다. 이 과정은 지연 시간과 CPU 부하를 극적으로 줄여줍니다.
- InfiniBand는 최고 수준의 성능과 네이티브 무손실(lossless) 운영을 위해 특별히 설계된 독점적인 패브릭입니다.
- RoCE v2(RDMA over Converged Ethernet)는 표준 이더넷을 통해 RDMA의 이점을 적용하여 라우팅이 가능하고 비용 효율적인 옵션을 제공하지만, 무손실 환경을 위해서는 특정 구성이 필요합니다.
- iWARP는 TCP 기반의 또 다른 이더넷 기반 RDMA 솔루션이지만, 일반적으로 RoCE v2보다 덜 보편적이고 성능이 낮습니다.
올바른 인터커넥트를 선택하는 것은 성능 요구 사항, 예산, 기존 인프라 및 확장성 목표에 따라 달라지는 전략적 결정입니다. 이 보고서는 이러한 기술들을 분석하고, 표준 이더넷/TCP/IP와 비교하며, CXL 및 NVLink와 같은 새로운 대안을 탐구하여 이 중요한 결정을 내리는 데 도움을 드리고자 합니다.
II. 고성능 네트워킹 및 RDMA 소개
오늘날의 디지털 세계는 고성능 컴퓨팅(HPC), 인공지능/머신러닝(AI/ML), 빅데이터 분석과 같이 데이터를 많이 사용하는 애플리케이션의 기하급수적인 성장을 특징으로 합니다. 이러한 워크로드는 방대한 데이터 세트를 컴퓨팅 노드와 스토리지 간에 빠르고 효율적으로 이동시켜야 합니다. 예를 들어, AI 애플리케이션은 데이터 무결성에 매우 민감하며 무손실 네트워크를 필요로 하는데, 단 하나의 메시지 손실만으로도 전체 학습 과정이 망가질 수 있습니다. 고대역폭 트래픽 또한 이러한 애플리케이션이 데이터를 효율적으로 처리하는 데 필수적입니다.
고성능 애플리케이션을 위한 전통적인 TCP/IP 이더넷의 한계
일반적인 네트워킹에는 신뢰할 수 있지만, 전통적인 TCP/IP 이더넷은 고성능 애플리케이션에 다음과 같은 주요 한계를 가집니다.
- 높은 지연 시간 및 CPU 오버헤드: TCP/IP의 설계는 운영 체제 커널의 여러 소프트웨어 계층을 통해 데이터를 전송하며 상당한 CPU 개입을 필요로 합니다. 이 과정은 상당한 지연 시간(일반적으로 수십 마이크로초)을 추가하고 CPU에 큰 부하를 줍니다. 지연 시간에 민감한 애플리케이션의 경우, CPU가 애플리케이션 실행 대신 네트워크 트래픽 관리에 시간을 소비하게 되므로 이는 주요 병목 현상이 됩니다. 컨텍스트 스위칭과 데이터 복사로 인한 이러한 "CPU 세금"은 네트워크 처리를 오프로드하고 CPU를 애플리케이션 작업에 사용할 수 있도록 하는 RDMA 기술을 채택하는 주된 이유입니다.
- 처리량 한계: 전송 윈도우 크기, 세그먼트 크기, 패킷 손실 등 여러 요인이 TCP의 유효 처리량을 제한합니다. 표준 TCP 윈도우 크기(종종 65,535바이트로 제한됨)는 특히 지연 시간이 높은 네트워크에서 고대역폭 링크를 완전히 활용하는 것을 막을 수 있습니다. 또한, TCP의 핵심 신뢰성 메커니즘인 패킷 재전송은 지연을 유발하고 추가 대역폭을 사용하여 혼잡하거나 손실이 많은 네트워크에서 성능을 저하시킵니다.
- 확장성 문제: TCP/IP는 대규모 네트워크에 잘 확장되지만, 그 설계는 순수한 성능보다는 일반적인 신뢰성을 우선시합니다. 이로 인해 대규모 HPC 클러스터나 실시간 AI 추론과 같이 극도의 처리량과 최소한의 지연 시간이 요구되는 시나리오에서는 덜 효과적입니다.
원격 직접 메모리 접근(RDMA)의 기본 원리 및 핵심 이점
원격 직접 메모리 접근(RDMA)은 고성능 환경에서 TCP/IP의 한계를 극복하기 위해 개발되었습니다. 주요 이점은 데이터 전송 중 CPU와 운영 체제를 우회하는 데서 비롯됩니다.
- 직접 메모리 접근(Zero-Copy): RDMA는 양쪽 시스템의 CPU나 OS를 거치지 않고 한 컴퓨터의 메모리에서 다른 컴퓨터의 메모리로 직접 데이터를 전송합니다. 이 "제로 카피" 접근 방식은 중간 데이터 버퍼와 컨텍스트 스위칭을 제거하여 전통적인 네트워킹의 주요 오버헤드 원인을 없앱니다.
- 지연 시간 및 CPU 부하 감소: CPU와 OS를 우회함으로써 RDMA는 통신 지연 시간을 대폭 줄이고 CPU 사이클을 확보합니다. 이는 더 빠른 계산과 더 나은 실시간 데이터 처리로 직접 이어집니다. 예를 들어, 애플리케이션 지연 시간은 TCP/IP의 약 50마이크로초에서 RDMA를 사용하면 2-5마이크로초까지 낮아질 수 있습니다.
- 더 높은 대역폭 활용: RDMA의 효율적인 데이터 경로와 감소된 오버헤드는 애플리케이션이 사용 가능한 네트워크 대역폭을 더 잘 활용하게 하여 더 높은 유효 처리량을 가능하게 합니다.
- 주요 구현 기술: 오늘날 사용되는 주요 RDMA 기술은 InfiniBand, RoCE(버전 1 및 2), iWARP입니다.
III. RoCE v2: 컨버지드 이더넷 기반 RDMA
RoCE v2는 널리 사용되는 이더넷 생태계에 RDMA의 장점을 확장하여 고성능 네트워킹 분야에서 큰 진전을 이룬 기술입니다.
A. 아키텍처 원칙
- RoCE v1에서 진화: RoCE v1은 레이어 2 프로토콜(Ethertype 0x8915)로, 단일 이더넷 브로드캐스트 도메인에 국한되어 확장성에 한계가 있었습니다. RoCE v2는 인터넷 계층에서 작동하여 이 문제를 해결합니다. RDMA 트래픽을 UDP/IP 패킷(UDP 대상 포트 4791 사용) 내에 캡슐화하여 레이어 3 IP 네트워크를 통해 라우팅할 수 있도록 합니다. 이 라우팅 기능은 RoCE v2를 대규모 데이터 센터 및 클라우드 환경에서 사용할 수 있게 하는 중요한 개선 사항입니다.
- 이더넷 기반 RDMA 통합: RoCE는 표준 이더넷 네트워크를 통해 RDMA를 수행하는 방법을 제공합니다. 핵심 InfiniBand 전송 계층과 RDMA 프로토콜은 유지하면서 InfiniBand 네트워크 계층을 IP 및 UDP 헤더로 효과적으로 대체합니다. 이 설계는 RoCE가 기존 이더넷 인프라를 활용할 수 있게 합니다.
- 패킷 형식: RoCE v2 패킷은 IP 헤더와 UDP 헤더를 포함하며, 이는 RDMA 전송 프로토콜을 캡슐화합니다. UDP는 패킷 순서를 보장하지 않지만, RoCE v2 표준은 동일한 소스 포트와 대상 주소를 가진 패킷이 재정렬되어서는 안 된다고 요구합니다.
- "두 세계의 장점을 모두 취한" 절충안: RoCE v2의 설계는 유연하고 비용 효율적이며 어디에나 있는 이더넷 플랫폼에서 RDMA의 고성능을 제공하는 것을 목표로 하는 전략적 절충안입니다. 이 접근 방식은 폭넓은 호환성을 제공하지만, 본질적으로 손실이 있는 이더넷 네트워크를 통해 RDMA에 필요한 무손실 성능을 보장해야 한다는 핵심 과제를 만듭니다.
B. 성능 프로필
- 지연 시간: RoCE 호스트 채널 어댑터(HCA)는 최저 1.3마이크로초의 매우 낮은 지연 시간을 달성할 수 있습니다. 애플리케이션 수준에서 RoCE는 지연 시간을 약 5마이크로초로 줄여 TCP/IP의 일반적인 50마이크로초에 비해 엄청난 개선을 이룹니다. InfiniBand가 약간 더 낮은 네이티브 지연 시간을 제공하지만, RoCE의 성능은 실시간 애플리케이션에 매우 우수합니다.
- 대역폭: RoCE v2는 포트당 최대 400Gbps의 고대역폭을 지원합니다.
- CPU 오프로드: 다른 RDMA 프로토콜과 마찬가지로 RoCE는 데이터 전송을 위해 CPU를 우회합니다. 이 오프로드는 귀중한 CPU 리소스를 네트워크 처리 대신 컴퓨팅 집약적인 작업에 사용할 수 있도록 합니다.
- 무손실 성능: InfiniBand의 성능과 맞먹기 위해 RoCE는 무손실 이더넷 네트워크에 의존합니다. 이는 일반적으로 데이터 센터 브리징(DCB) 기능, 특히 우선순위 기반 흐름 제어(PFC) 및 명시적 혼잡 알림(ECN)을 구현하여 달성됩니다.
C. 인프라 및 관리
- 하드웨어/소프트웨어 요구 사항: RoCE는 스위치 및 케이블과 같은 표준 이더넷 하드웨어와 함께 작동하므로 조직은 기존 인프라를 사용할 수 있습니다. 그러나 엔드포인트에는 RoCE 지원 호스트 채널 어댑터(HCA)가 필요합니다. 소프트웨어 지원은 성숙하여 Mellanox OFED 2.3+에 구현되었고 Linux 커널 v4.5+에 통합되었습니다.
- 무손실 네트워크 구성: RoCE는 표준 이더넷을 사용하지만, 무손실 DCB 네트워크를 만드는 것은 InfiniBand 네트워크를 설정하는 것보다 더 복잡할 수 있습니다. 엔드포인트에서 스위치에 이르기까지 모든 구성 요소가 신중하게 구성되어야 합니다. 여기에는 우선순위 기반 흐름 제어(PFC), 향상된 전송 선택(ETS) 및 혼잡 알림 메커니즘 설정이 포함됩니다. 레이어 3 네트워크에서 작동하려면 이러한 무손실 특성이 라우터 전반에 걸쳐 유지되어야 하며, 종종 레이어 2 우선순위 설정을 레이어 3 DSCP QoS 설정에 매핑하여 이를 달성합니다.
- 관리 고려 사항: RoCE는 표준 이더넷 도구로 관리할 수 있습니다. 그러나 대규모 RoCE v2 배포에서 일관된 무손실 성능을 보장하고 혼잡을 관리하는 것은 어려울 수 있으며 전문 지식이 필요합니다.
- "비용 효율성"의 숨겨진 비용: RoCE는 기존 이더넷 인프라를 사용할 수 있기 때문에 종종 "비용 효율적"이라고 불리지만, 이는 지나친 단순화입니다. InfiniBand와 유사한 성능을 달성하려면 완벽하게 구성된 무손실 이더넷 네트워크가 필요합니다. PFC 및 ECN과 같은 데이터 센터 브리징(DCB) 기능을 설정하는 복잡성은 InfiniBand 네트워크를 구성하는 것보다 훨씬 높을 수 있습니다. 이러한 복잡성은 네트워크 설계, 문제 해결 및 관리에 대한 운영 비용을 높이고 더 비싼 이더넷 스위치를 필요로 할 수 있습니다. 결과적으로 RoCE의 초기 하드웨어 절감액은 이러한 높은 운영 비용으로 상쇄될 수 있습니다. 정확한 비교를 위해서는 철저한 총소유비용(TCO) 분석이 필수적입니다.
D. 주요 애플리케이션
RoCE v2는 많은 데이터 센터 및 엔터프라이즈 애플리케이션을 위한 훌륭한 솔루션입니다. AI 워크로드, 고빈도 거래 및 실시간 분석과 같이 초저지연과 고처리량이 필요한 환경에 특히 적합합니다. 또한 데이터베이스나 파일 I/O에 크게 의존하는 애플리케이션의 성능을 향상시킵니다. 추가적으로, RoCE v2는 빠르고 효율적인 데이터 복제를 가능하게 하여 비즈니스 연속성 및 재해 복구에 도움이 됩니다. AI 학습 클러스터에서의 광범위한 사용은 현대 컴퓨팅에서의 중요성을 강조합니다.
IV. InfiniBand: 특수 고성능 패브릭
InfiniBand는 까다로운 컴퓨팅 환경을 위해 타의 추종을 불허하는 속도, 최소한의 지연 시간 및 높은 신뢰성을 제공하도록 처음부터 설계된 최고 수준의 고성능 인터커넥트입니다.
A. 아키텍처 원칙
- 네이티브 RDMA: InfiniBand는 물리 계층부터 전체 프로토콜 스택에 RDMA가 통합되어 구축되었습니다. 이 근본적인 설계는 RDMA 작업이 매우 효율적이도록 보장하여 CPU 개입 없이 노드 간에 직접적이고 보호된 데이터 채널을 만듭니다.
- 스위치 패브릭 토폴로지: InfiniBand는 장치 간 직접적인 점대점 연결을 위해 스위치 패브릭 토폴로지를 사용합니다. 아키텍처는 프로세서의 호스트 채널 어댑터(HCA)와 주변 장치의 타겟 채널 어댑터(TCA)를 포함하여 효율적인 통신을 가능하게 합니다.
- 크레딧 기반 흐름 제어: InfiniBand의 핵심 기능은 크레딧 기반 흐름 제어입니다. 이 하드웨어 수준 알고리즘은 수신자가 데이터를 수락할 충분한 버퍼 공간(크레딧)이 있는 경우에만 송신자가 데이터를 전송하도록 보장하여 무손실 통신을 보장합니다. 이 네이티브 신뢰성은 패킷 손실을 방지하고 InfiniBand를 무손실 환경을 위해 상위 계층 구성이 필요한 기술과 차별화합니다.
- 독점 표준: InfiniBand는 1999년에 설립된 InfiniBand 무역 협회(IBTA)가 정의한 독점 표준을 따릅니다. 생태계는 InfiniBand 어댑터 및 스위치의 선도적인 제조업체인 NVIDIA(Mellanox 인수)에 의해 크게 지배되고 있습니다.
B. 성능 프로필
- 초저지연: InfiniBand는 지속적으로 가장 낮은 지연 시간을 제공합니다. 어댑터 지연 시간은 0.5마이크로초까지 낮을 수 있으며, 스위치 포트 간 지연 시간은 약 100나노초로, 유사한 이더넷 스위치의 230나노초보다 훨씬 낮습니다. 애플리케이션 계층에서 InfiniBand는 TCP/IP의 50마이크로초에 비해 최저 2마이크로초의 지연 시간을 달성할 수 있습니다.
- 고처리량 기능: InfiniBand는 매우 높은 데이터 전송률을 지원합니다. HDR 및 NDR과 같은 최신 버전은 레인당 최대 200Gbps 및 400Gbps를 제공합니다. 집계된 링크는 더 높은 처리량을 달성하여 800Gbps(NDR) 및 1.6Tbps(XDR)에 이를 수 있습니다.
- CPU 효율성: InfiniBand의 주요 강점은 거의 CPU 사용 없이 초저지연과 극도의 고대역폭을 제공하는 능력입니다. 이 네트워크 처리 오프로딩은 컴퓨팅 집약적인 워크로드에 중요한 이점입니다.
- 설계에 의한 성능 vs. 구성에 의한 성능: InfiniBand와 RoCE는 접근 방식에 근본적인 차이가 있습니다. InfiniBand는 RDMA를 위해 처음부터 설계되었으며, 물리 및 전송 계층이 하드웨어 수준의 신뢰성을 위해 설계되었고 무손실 통신을 위한 네이티브 크레딧 기반 알고리즘을 포함합니다. 반면, RoCE는 표준 이더넷에서 실행되며 우선순위 기반 흐름 제어(PFC) 및 명시적 혼잡 알림(ECN)과 같은 기능의 구성에 의존하여 무손실 네트워크를 만듭니다. 이는 InfiniBand가 즉시 사용할 수 있는 보장된 고성능을 제공하는 반면, RoCE의 성능은 기본 이더넷 구성의 품질에 따라 달라진다는 것을 의미합니다.
C. 인프라 및 관리
- 전용 하드웨어: InfiniBand는 전용 호스트 채널 어댑터(HCA), 스위치, 라우터 및 독점 케이블을 포함한 특수 하드웨어가 필요합니다. 이는 일반적으로 이더넷 기반 솔루션에 비해 초기 투자 비용이 더 높습니다.
- 중앙 집중식 관리: InfiniBand 네트워크는 중앙 서브넷 관리자(SM)에 의해 관리되며, 이는 포워딩 테이블을 계산 및 배포하고 파티션 및 서비스 품질(QoS)과 같은 구성을 관리합니다. 이 중앙 집중식 접근 방식은 초기 설정 후 대규모 클러스터의 관리를 단순화할 수 있습니다.
- 전문 지식: InfiniBand 네트워크를 배포하고 유지 관리하려면 일반적으로 전문 지식이 필요하며, 이는 운영 비용을 증가시키고 IT 직원의 학습 곡선을 가파르게 만들 수 있습니다.
- 생태계: InfiniBand 생태계는 성숙하지만 NVIDIA/Mellanox에 의해 지배되고 있습니다.
D. 주요 애플리케이션
InfiniBand는 고성능 컴퓨팅(HPC) 환경의 업계 표준이며 이러한 애플리케이션을 위한 가장 빠르게 성장하는 인터커넥트입니다. 이는 IBTA가 권장하는 기본 기술입니다. 초저지연과 고대역폭은 대규모 AI/ML 모델 학습, 빅데이터 분석, 대규모 데이터베이스 작업과 같은 까다로운 워크로드에 필수적입니다. 또한 대규모 시뮬레이션(예: 일기 예보) 및 속도와 데이터 무결성이 중요한 고빈도 금융 서비스에도 중요합니다. 2022년 6월 기준, 세계 상위 100대 슈퍼컴퓨터 중 62%가 InfiniBand를 사용했습니다.
V. iWARP: 표준 TCP/IP 기반 RDMA
iWARP(Internet Wide Area RDMA Protocol)는 표준 TCP/IP 프로토콜 스위트를 사용하는 것으로 주목받는 또 다른 RDMA 구현 방법입니다.
A. 아키텍처 원칙
- TCP/IP 기반 RDMA: iWARP는 표준 IP 네트워크를 통해 RDMA를 구현하는 프로토콜입니다. UDP를 사용하는 RoCE와 달리, iWARP는 TCP 및 SCTP와 같은 신뢰할 수 있는 전송 프로토콜 위에 구축됩니다.
- 핵심 구성 요소: iWARP의 작동은 여러 구성 요소에 의존합니다. 직접 데이터 배치 프로토콜(DDP)은 데이터를 애플리케이션의 메모리에 직접 배치하여 제로 카피 전송을 가능하게 합니다. 원격 직접 메모리 접근 프로토콜(RDMAP)은 RDMA 읽기 및 쓰기 작업을 위한 서비스를 제공합니다. TCP를 통해 DDP를 사용하려면 마커 PDU 정렬(MPA) 프레이밍이라는 특정 적응 계층이 필요합니다.
- 신뢰성: iWARP의 독특한 특징은 신뢰성이 기본 TCP 프로토콜에 의해 제공된다는 것입니다. 이는 UDP를 사용하고 신뢰성을 위해 데이터 센터 브리징(DCB)과 같은 외부 메커니즘이 필요한 RoCE v2와 다릅니다. 결과적으로 iWARP는 신뢰할 수 있는 연결형 통신만 지원합니다.
B. 성능 프로필
- 상대적 지연 시간 및 처리량: iWARP는 전통적인 TCP/IP보다 지연 시간이 낮지만, 성능은 일반적으로 RoCE보다 나쁩니다. 2011년에 가장 낮은 iWARP HCA 지연 시간은 3마이크로초였지만, RoCE HCA는 1.3마이크로초에 도달했습니다. 벤치마크는 RoCE가 iWARP보다 훨씬 빠르게 메시지를 전달하며, 40GbE에서는 처리량이 2배 이상, 10GbE에서는 5배 이상 높다는 것을 일관되게 보여줍니다.
- CPU 오프로드: 다른 RDMA 프로토콜과 마찬가지로 iWARP는 직접 메모리 전송을 통해 CPU 부하를 최소화합니다. RDMA 하드웨어와 함께 TCP 오프로드 엔진(TOE)을 사용하여 제로 카피 결과를 달성하고 CPU 개입을 더욱 줄일 수 있습니다.
C. 인프라 및 관리
- 표준 이더넷과의 호환성: iWARP의 주요 이점은 기존 네트워크에 최소한의 변경만으로 표준 이더넷 인프라에서 실행할 수 있다는 것입니다. 이를 통해 조직은 현재 투자를 활용할 수 있습니다.
- 하드웨어 요구 사항: 표준 이더넷 스위치와 호환되지만, iWARP는 여전히 엔드포인트에 iWARP 지원 네트워크 카드가 필요합니다.
- 통합 측면: iWARP는 Microsoft Windows Server 및 최신 Linux 커널과 같은 주요 운영 체제에 통합되어 있습니다. 이는 SMB Direct, iSER(iSCSI Extensions for RDMA), NFS over RDMA와 같은 애플리케이션을 지원합니다.
- 관리 문제: iWARP 트래픽 관리는 어려울 수 있습니다. TCP의 포트 공간을 공유하여 흐름 관리를 복잡하게 만들고 RDMA 트래픽을 식별하기 어렵게 만듭니다. 전반적으로 iWARP는 RoCE보다 관리하기 어려운 것으로 간주됩니다.
D. 시장 관련성
- 제한적인 채택: iWARP는 InfiniBand 및 RoCE v2에 비해 "드문" 또는 "덜 일반적으로 사용되는" RDMA 구현입니다. 솔루션은 구현 및 배포의 어려움으로 인해 "제한적인 성공"을 거두었습니다.
- TCP 의존성의 역설: RDMA를 TCP 위에 계층화하는 iWARP의 설계 선택은 내장된 신뢰성과 호환성을 제공하지만, 역설적으로 RDMA의 핵심 이점을 완전히 달성하는 것을 막습니다. 하드웨어 오프로드가 있어도 TCP 프로토콜의 고유한 오버헤드는 iWARP가 InfiniBand나 RoCE의 초저지연 및 고처리량에 도달하는 것을 막는 것으로 보입니다. 이러한 성능 절충은 제한적인 시장 채택으로 이어졌습니다.
VI. 비교 분석: RoCE v2 vs. InfiniBand vs. iWARP vs. 표준 이더넷
성능, 인프라 및 운영 메트릭에 대한 상세한 비교는 올바른 고성능 인터커넥트를 선택하는 데 중요합니다.
A. 성능 벤치마크
이러한 인터커넥트의 성능은 특히 지연 시간, 대역폭 및 CPU 활용도에서 크게 다릅니다.
- 지연 시간:
- InfiniBand: 가장 낮은 지연 시간을 제공합니다. 스위치 포트 간 지연 시간은 약 100나노초이며, 어댑터 지연 시간은 0.5~1.3마이크로초까지 낮습니다. 애플리케이션 계층 지연 시간은 2마이크로초까지 낮을 수 있습니다.
- RoCE v2: 초저지연을 제공합니다. 이더넷 스위치 지연 시간은 약 230나노초이며, HCA 지연 시간은 1.3마이크로초까지 낮을 수 있습니다. 애플리케이션 계층 지연 시간은 일반적으로 약 5마이크로초입니다.
- iWARP: RoCE보다 지연 시간이 높으며, HCA 지연 시간은 약 3마이크로초(2011년 데이터)로 보고되었습니다. RoCE보다 지속적으로 성능이 떨어집니다.
- 표준 TCP/IP: 가장 높은 지연 시간을 가지며, 단방향 지연 시간은 10~55밀리초입니다. 애플리케이션 계층 지연 시간은 일반적으로 약 50마이크로초입니다.
- 대역폭:
- InfiniBand: 매우 높은 대역폭을 지원합니다. NDR과 같은 최신 버전은 포트당 최대 400Gbps를 제공하며, XDR은 최대 800Gbps에 이릅니다. 향후 GDR은 1.6Tbps에 도달할 것으로 예상됩니다.
- RoCE v2: 고대역폭을 지원하며, 포트당 최대 400Gbps를 지원합니다.
- iWARP: 일반적으로 RoCE보다 처리량이 낮습니다.
- 표준 TCP/IP: 처리량은 종종 프로토콜 오버헤드와 재전송으로 인해 제한되어 고대역폭 링크를 효율적으로 사용하기 어렵습니다.
- CPU 오프로드:
- InfiniBand, RoCE v2, iWARP: 세 가지 RDMA 기술 모두 운영 체제를 우회하여 상당한 CPU 작업을 오프로드하고 다른 작업을 위해 CPU 리소스를 확보합니다.
- 표준 TCP/IP: 커널이 데이터 처리에 깊이 관여하기 때문에 높은 CPU 부하가 발생합니다.
- 무손실 메커니즘:
- InfiniBand: 네이티브, 하드웨어 수준의 크레딧 기반 흐름 제어를 특징으로 하여 무손실 통신을 보장합니다.
- RoCE v2: PFC 및 ECN과 같은 데이터 센터 브리징(DCB) 기능을 사용하는 무손실 이더넷 구성에 의존합니다. 또한 하드웨어 재전송을 통한 종단 간 신뢰할 수 있는 전달 메커니즘을 갖추고 있습니다.
- iWARP: TCP의 내장된 신뢰할 수 있는 전송을 사용하여 데이터 무결성을 보장합니다.
- 표준 TCP/IP: 최선형 전달 모델을 사용하며, 신뢰성을 보장하기 위해 상위 계층에서 재전송에 의존하므로 지연 시간이 추가됩니다.
다음 표는 성능 특성을 요약한 것입니다.
| 기능 | InfiniBand | RoCE v2 | iWARP | 표준 이더넷/TCP/IP |
|---|---|---|---|---|
| 핵심 기술 | 네이티브 RDMA | 이더넷 기반 RDMA (UDP/IP) | 이더넷 기반 RDMA (TCP/IP) | 전통적인 계층형 프로토콜 |
| 일반적인 애플리케이션 지연 시간(µs) | 2 | 5 | >3 (2011 HCA) | 50 |
| 스위치 포트 간 지연 시간(ns) | 100 | 230 | 해당 없음 (이더넷에 의존) | 일반적으로 더 높고 가변적 |
| 최대 대역폭(포트/링크당 Gbps) | 400 (NDR), 800 (XDR), 1.6T (GDR) | 400 | 일반적으로 RoCE보다 낮음 | 400+ (프로토콜 오버헤드로 제한) |
| CPU 오버헤드 | 거의 없음 | 매우 낮음 | 낮음 | 높음 |
| 무손실 메커니즘 | 네이티브 크레딧 기반 흐름 제어 | 무손실 이더넷 필요(PFC, ECN) | TCP의 신뢰할 수 있는 전송 | 최선형, 재전송에 의존 |
| 라우팅 가능성(L2/L3) | L3 (서브넷 관리자 경유) | L3 (라우팅 가능 RoCE) | L3 | L3 (표준 IP 라우팅) |
B. 인프라 및 생태계
- 하드웨어 의존성:
- InfiniBand: InfiniBand HCA, 스위치, 독점 케이블을 포함한 전체 특수 하드웨어 세트가 필요합니다.
- RoCE v2: RoCE 지원 HCA가 필요하지만 표준 이더넷 스위치 및 케이블에서 작동하므로 기존 네트워크와 통합할 수 있습니다.
- iWARP: iWARP 지원 네트워크 카드가 필요하지만 표준 이더넷 스위치를 사용할 수 있습니다.
- 표준 이더넷: 널리 사용 가능한 상용 이더넷 NIC 및 스위치를 사용합니다.
- 공급업체 종속성:
- InfiniBand: 생태계가 제한적이고 Mellanox(NVIDIA)에 의해 지배되어 공급업체 종속성에 대한 우려를 제기할 수 있습니다.
- RoCE v2: 여러 공급업체가 있는 크고 경쟁력 있는 이더넷 생태계의 이점을 누립니다. 일부는 RoCE와 iWARP를 모두 지원하는 "Universal RDMA" NIC를 제공하여 종속성을 줄입니다.
- iWARP: Intel 및 Chelsio와 같은 공급업체의 지원을 받아 광범위한 이더넷 생태계의 이점을 누립니다.
- 상호 운용성:
- InfiniBand: 독점 표준으로서 모든 구성 요소는 함께 작동하도록 IBTA 사양을 준수해야 합니다.
- RoCE v2: 표준 이더넷을 기반으로 하여 더 넓은 상호 운용성과 기존 네트워크와의 쉬운 통합을 가능하게 합니다.
- iWARP: TCP/IP에 대한 표준 IETF RFC를 기반으로 하여 표준 IP 네트워크 내에서 높은 호환성을 보장합니다.
C. 비용 효율성
- 초기 투자:
- InfiniBand: 특수 하드웨어 및 라이선스로 인해 일반적으로 더 높은 초기 투자가 필요합니다. 대규모 AI 클러스터의 경우 InfiniBand 스위치는 RoCE 스위치보다 훨씬 비쌀 수 있습니다.
- RoCE v2: 기존 이더넷과 통합하여 새로운 하드웨어 비용을 줄일 수 있기 때문에 종종 더 비용 효율적인 옵션입니다. 대규모 AI 클러스터용 스위치 절감액은 상당할 수 있습니다(InfiniBand에 비해 49% ~ 70%).
- iWARP: 표준 이더넷 스위치를 사용하지만 특수 어댑터가 필요하며, 이는 여전히 상당한 비용이 될 수 있습니다.
- 표준 이더넷: 상용 하드웨어로 인해 일반적으로 가장 저렴한 옵션입니다.
- 총소유비용(TCO):
- InfiniBand: 특수 하드웨어, 유지 보수 및 독점 기술에 대한 직원 교육의 필요성으로 인해 TCO가 더 높은 경향이 있습니다.
- RoCE v2: TCO가 더 낮을 수 있지만 이는 조건부입니다. 무손실 이더넷 패브릭을 구성하고 유지 관리하는 복잡성은 운영 비용을 크게 증가시킬 수 있습니다. 초기 하드웨어 비용은 낮을 수 있지만 설계, 문제 해결 및 유지 보수에 필요한 전문 지식과 노력은 이러한 절감액을 상쇄할 수 있습니다. 따라서 "비용 효율성"은 하드웨어 가격과 조직의 전문성 및 관리 부담 모두에 따라 달라집니다.
- iWARP: 통합 및 관리 문제는 전체 TCO에 영향을 줄 수 있습니다.
다음 표는 인프라 및 비용 고려 사항에 대한 비교 개요를 제공합니다.
| 기능 | InfiniBand | RoCE v2 | iWARP | 표준 이더넷/TCP/IP |
|---|---|---|---|---|
| 필요한 네트워크 하드웨어 | 전용 IB NIC, IB 스위치, IB 케이블 | RoCE 지원 NIC, 표준 이더넷 스위치/케이블 | iWARP 지원 NIC, 표준 이더넷 스위치/케이블 | 표준 이더넷 NIC, 이더넷 스위치/케이블 |
| 네트워크 호환성 | 독점(IBTA 표준) | 표준 이더넷(IEEE) | 표준 이더넷(IETF RFC) | 표준 이더넷(IEEE) |
| 관리 복잡성 | 어려움(특수 SM) | 어려움(무손실 이더넷 구성) | RoCE보다 어려움 | 쉬움 |
| 초기 하드웨어 비용(상대적) | 높음 | 중간(기존 활용) | 중간(특수 NIC) | 낮음 |
| 총소유비용(상대적) | 높음 | 낮음(관리에 따라 조건부) | 가변적(통합 문제) | 가장 낮음 |
| 공급업체 생태계 | 제한적(NVIDIA/Mellanox 지배적) | 광범위(다수 이더넷 공급업체) | 광범위(다수 이더넷 공급업체) | 매우 광범위 |
D. 확장성 및 유연성
- 라우팅 기능:
- InfiniBand: 서브넷 관리자(SM)가 중앙에서 관리하는 라우팅이 있는 스위치 패브릭을 사용합니다. 10만 개 이상의 노드가 있는 클러스터를 지원하는 등 확장성이 뛰어납니다.
- RoCE v2: UDP/IP 캡슐화로 레이어 3 IP 네트워크를 통해 라우팅할 수 있어 대규모 네트워크 및 클라우드 환경에서 확장 가능합니다. 효율적인 로드 밸런싱을 위해 ECMP도 지원합니다.
- iWARP: IP 네트워크를 통해 라우팅할 수 있습니다.
- 표준 이더넷: 확장성과 유연성이 뛰어나지만 HPC 수준의 효율성을 위해서는 스파인-리프 아키텍처와 같은 고급 구성이 필요할 수 있습니다.
- 네트워크 토폴로지:
- InfiniBand: HPC/AI 클러스터에 최적화되어 있으며 Fat Tree, Dragonfly+, 다차원 Torus와 같은 고성능 토폴로지를 지원합니다.
- RoCE v2: IP 기반 라우팅으로 거의 모든 네트워크 토폴로지에 적응할 수 있습니다.
- 표준 이더넷: 스타 및 메시를 포함한 다양한 토폴로지를 지원합니다.
E. 신뢰성 및 혼잡 제어
- 신뢰성:
- InfiniBand: 크레딧 기반 흐름 제어로 네이티브, 하드웨어 수준의 신뢰성을 제공하여 무손실 통신을 보장합니다.
- RoCE v2: PFC 및 ETS를 사용하는 무손실 이더넷 구성에 의존합니다. 또한 하드웨어 기반 패킷 재전송을 통한 종단 간 신뢰할 수 있는 전달 메커니즘을 포함합니다.
- iWARP: TCP의 고유한 신뢰성의 이점을 누리며 오류 수정 및 재전송을 제공합니다.
- 표준 TCP/IP: 재전송을 통해 신뢰성에 중점을 두어 상당한 지연 시간을 추가하고 처리량을 줄일 수 있습니다.
- 혼잡 제어:
- InfiniBand: FECN/BECN 마킹을 기반으로 자체 혼잡 제어 메커니즘을 정의합니다.
- RoCE v2: IP ECN 비트 및 혼잡 알림 패킷(CNP)을 사용하여 혼잡 제어 프로토콜을 구현합니다. DCQCN과 같은 산업 관행도 사용됩니다.
- iWARP: TCP의 기존 혼잡 제어 알고리즘에 의존합니다.
F. 애플리케이션 적합성
- InfiniBand: 최고의 데이터 처리량과 가장 낮은 지연 시간이 필요한 환경에 이상적인 선택입니다. 여기에는 과학 연구, 금융 모델링, 대규모 HPC 클러스터 및 가장 까다로운 AI/ML 학습 워크로드가 포함됩니다.
- RoCE v2: 기존 이더넷 인프라를 활용하면서도 고성능이 필요한 기업에서 선호합니다. 스토리지 네트워크, 실시간 분석 및 클라우드 서비스에 적합하며 성능과 비용의 균형을 제공합니다.
- iWARP: 기존 TCP/IP 인프라가 엄격한 요구 사항이고 초저지연이 최우선 순위가 아닌 특정 경우에 고려될 수 있습니다. NVMeoF, iSER, SMB Direct, NFS over RDMA와 같은 애플리케이션이나 테스트 환경을 위한 저렴한 옵션으로 적합합니다.
- 표준 이더넷/TCP/IP: 극한의 HPC/AI 성능이 주요 목표가 아닌 엔터프라이즈 LAN 및 클라우드 인프라와 같은 일반적인 네트워킹에 가장 좋은 선택으로 남아 있습니다.
- 성능-비용-복잡성의 삼중고: 이 분석은 인터커넥트를 선택할 때 성능, 비용, 복잡성 사이의 근본적인 절충, 즉 삼중고를 드러냅니다. InfiniBand는 최고의 성능과 네이티브 신뢰성을 제공하지만 비용이 더 높습니다. RoCE v2는 이더넷에서 InfiniBand에 가까운 성능을 제공하여 하드웨어 비용을 낮출 수 있지만 상당한 구성 복잡성을 추가합니다. iWARP는 TCP 기반 RDMA를 제공하지만 성능이 낮습니다. 표준 이더넷은 비용 효율적이지만 까다로운 워크로드를 위한 성능이 부족합니다. 단 하나의 "최고" 솔루션은 없으며, 올바른 선택은 특정 요구 사항과 기능에 따라 이 세 가지 요소를 균형 있게 조절해야 합니다.
다음 표는 각 기술의 애플리케이션 적합성을 요약한 것입니다.
| 기술 | 주요 사용 사례 | 가장 적합한 환경 | 덜 적합한 환경 |
|---|---|---|---|
| InfiniBand | HPC, AI/ML 학습, 빅데이터 분석, 금융 서비스(차익 거래) | 절대적으로 가장 낮은 지연 시간, 가장 높은 대역폭 및 네이티브 무손실 보장이 요구되는 환경 | 비용에 민감한 일반 기업 네트워킹, 전문 IT 전문 지식이 없는 환경 |
| RoCE v2 | 데이터 센터, 클라우드 서비스, 스토리지 네트워크, 실시간 분석, AI/ML 추론 | 기존 이더넷 인프라를 활용하여 고성능을 추구하는 조직; 비용과 성능의 균형 | 광범위한 구성 전문 지식 없이 네이티브 무손실 보장이 필수적인 환경 |
| iWARP | NVMeoF, iSER, SMB Direct, NFS over RDMA, 테스트/개발 환경 | 기존 TCP/IP를 통해 RDMA가 필요하고 절대적인 최고 성능이 중요하지 않은 특정 애플리케이션 | 대규모 HPC/AI 클러스터, 지연 시간에 민감한 실시간 애플리케이션 |
| 표준 이더넷/TCP/IP | 일반 기업 네트워킹, LAN, 인터넷 연결, 클라우드 인프라 | 어디에나 있고 비용 효율적이며 유연한 범용 네트워킹 | 고성능 컴퓨팅, AI/ML 학습 및 기타 지연 시간에 민감하고 CPU 집약적인 워크로드 |
VII. 새로운 고성능 인터커넥트 및 미래 동향
고성능 네트워킹 환경은 데이터 집약적인 워크로드와 효율성 증대에 대한 요구로 인해 끊임없이 변화하고 있습니다. 기존의 RDMA 기술을 넘어 새로운 인터커넥트와 트렌드가 데이터 센터의 미래를 형성하고 있습니다.
A. Compute Express Link (CXL)
CXL은 일반 컴퓨팅 시스템을 위해 설계된 PCIe 물리 계층 기반의 최신 인터커넥트입니다. 주요 목표는 CPU와 GPU, FPGA와 같은 가속기 간의 빠르고 원활한 통신을 가능하게 하는 것입니다.
CXL의 주요 특징은 고속 데이터 전송, 폭넓은 호환성, 캐시 일관성을 통한 효율적인 메모리 공유 등입니다. 세 가지 장치 유형(가속기용, 캐시 일관성 장치용, 메모리 확장기용)과 유연한 토폴로지를 지원합니다. CXL/PCIe Gen5는 약 500나노초의 지연 시간으로 512Gbps의 최고 처리량을 제공합니다. InfiniBand의 지연 시간(약 100나노초)이 더 낮지만, CXL은 캐시 일관성이 중요한 저지연 메모리 액세스에 더 우수합니다.
주요 발전은 2022년 Gen-Z 및 CXL 컨소시엄의 합병으로, CXL이 이러한 메모리 중심 인터커넥트 클래스의 유일한 산업 표준으로 자리매김하게 된 것입니다.
CXL은 RoCE나 InfiniBand와 같은 전통적인 노드 간 네트워킹에서 메모리 일관성 및 리소스 분리(disaggregation)로의 전환을 나타냅니다. 이는 특정 워크로드에 대해 CXL이 주요 인터커넥트가 되어 기존 네트워크 패브릭을 보완하거나 필요성을 줄일 수 있음을 의미합니다.
B. NVLink
NVLink는 NVIDIA의 독점적인 고대역폭, 저지연 인터커넥트로, 가속 컴퓨팅 플랫폼 내에서 GPU-GPU 및 GPU-CPU 간 직접 통신을 위해 설계되었습니다.
NVLink는 GB200 및 GB300 아키텍처와 같은 AI 및 HPC를 위한 NVIDIA 솔루션의 핵심 부분입니다. GPU 간의 초고속 데이터 전송을 제공하여 AI 모델 학습을 확장하는 데 매우 중요합니다.
NVLink는 수직 통합 및 전문화된 성능을 향한 추세를 보여줍니다. 그 독점적인 특성은 RoCE나 InfiniBand와 같은 개방형 표준과 대조됩니다. 이 설계는 단일 공급업체의 하드웨어 스택 내에서 성능을 극대화합니다. InfiniBand와 RoCE가 노드 간 일반 네트워킹을 처리하는 동안, NVLink는 GPU 시스템 내부 및 간의 통신을 최적화하여 서로 다른 기술이 서로 다른 요구를 충족시키는 계층화된 인터커넥트 아키텍처를 만듭니다.
C. 미래 이더넷 속도
이더넷은 10Mbps에서 400Gbps로 진화했으며, 800GbE 및 1.6TbE 표준이 곧 등장하면서 개발은 계속되고 있습니다. 이러한 더 빠른 속도는 양자 컴퓨팅, 고급 AI, 몰입형 기술과 같은 차세대 애플리케이션에 필수적일 것입니다.
이더넷 속도의 지속적인 증가는 RoCE에 직접적인 이점을 제공합니다. RoCE는 이더넷을 기반으로 구축되었기 때문에 이러한 발전을 자동으로 활용하여 InfiniBand와 경쟁력을 유지하는 데 도움이 됩니다. 클라우드 서비스의 성장은 이미 200GbE 및 400GbE의 배포를 촉진하고 있으며, 800GbE 및 1.6TbE가 그 뒤를 이을 것입니다.
이더넷과 RoCE의 지속적인 관련성은 밀접하게 연결되어 있습니다. 이더넷 속도가 발전함에 따라 RoCE는 특히 기존 이더넷 투자를 활용하고 독점 생태계를 피하려는 조직에게 고성능 데이터 센터를 위한 더욱 강력한 경쟁자가 됩니다.
D. 분산형 컴퓨팅 및 포토닉스
- 분산형 컴퓨팅: 이 새로운 접근 방식은 컴퓨팅, 스토리지, 메모리와 같은 리소스를 기존 서버에서 분리하여 데이터 센터 효율성을 향상시키는 것을 목표로 합니다. 그런 다음 이러한 리소스는 고급 네트워킹으로 연결된 유연한 풀로 재구성됩니다. 주요 결과는 한때 서버 내부에서 발생했던 통신이 이제 네트워크를 가로지르게 되어 부하를 극적으로 증가시키고 초저지연을 중요하게 만든다는 것입니다. 이러한 추세는 RoCE 및 InfiniBand와 같은 고성능 인터커넥트의 필요성을 강화하고 CXL과 같은 새로운 인터커넥트 개발을 촉진합니다.
- 데이터 센터 네트워킹의 포토닉스: 실리콘 포토닉스는 광학 부품을 실리콘 칩에 통합하여 고속, 저전력 광 인터커넥트를 가능하게 합니다. 이 기술은 기존 구리보다 훨씬 빠른 데이터 전송 속도(100Gbps 이상), 낮은 지연 시간, 더 나은 에너지 효율성을 제공합니다. 데이터 센터의 증가하는 트래픽 요구를 충족하고 차세대 고속 이더넷을 가능하게 하는 데 필수적이 되고 있습니다.
이러한 추세 간의 관계는 공생적입니다. 분산형 아키텍처는 RoCE, InfiniBand, CXL과 같은 인터커넥트가 제공하는 고급 네트워킹을 필요로 합니다. 결과적으로, 특히 미래의 800GbE 및 1.6TbE 표준에 필요한 속도를 달성하는 것은 실리콘 포토닉스와 같은 기술에 의존하게 될 것입니다.
VIII. 권장 사항 및 결론
고성능 인터커넥트를 선택하는 것은 조직의 특정 요구 사항, 예산, 인프라 및 장기 비전과 일치해야 하는 중요한 전략적 결정입니다.
- 최대 순수 성능 및 미션 크리티컬 HPC/AI의 경우: InfiniBand가 명확한 황금 표준입니다. 네이티브 RDMA, 크레딧 기반 흐름 제어 및 특수 설계는 보장된 무손실 성능으로 가장 낮은 지연 시간과 가장 높은 처리량을 제공합니다. 예산과 전문 지식을 갖춘 조직은 매 마이크로초가 중요한 대규모 클러스터에 InfiniBand를 선택해야 합니다.
- 비용 효율성 및 이더넷 통합을 통한 고성능의 경우: RoCE v2는 강력하고 점점 더 인기 있는 대안입니다. TCP/IP에 비해 상당한 성능 향상을 제공하며 기존 이더넷 인프라를 사용하여 InfiniBand의 성능에 근접할 수 있습니다. 완전한 개편 없이 데이터 센터를 업그레이드하려는 조직에 이상적입니다. 그러나 이 선택은 무손실 이더넷 패브릭을 신중하게 구성하고 관리하겠다는 약속이 필요합니다.
- 틈새 애플리케이션 또는 TCP 기반 레거시 RDMA 환경의 경우: iWARP는 특정 경우에 적합할 수 있으며, 특히 기존 TCP/IP 인프라 사용이 필수이고 최고 성능이 주요 목표가 아닌 경우에 그렇습니다. 그러나 낮은 성능과 높은 관리 복잡성으로 인해 최신 고성능 배포에서의 사용은 제한됩니다.
- 범용 네트워킹의 경우: 표준 이더넷/TCP/IP는 극도의 성능 요구가 없는 환경에서 가장 일반적이고 비용 효율적인 선택으로 남아 있습니다. 사용 편의성과 상용 하드웨어는 일반 기업 네트워크, LAN 및 표준 클라우드 인프라에 적합합니다.
- 미래 대비를 위한 신흥 기술 고려: 조직은 메모리 중심 및 분산형 아키텍처를 위한 CXL의 발전을 주시해야 합니다. 이는 리소스 풀링을 최적화하여 기존 네트워크 패브릭을 보완하기 때문입니다. 마찬가지로 NVLink는 NVIDIA의 GPU 중심 시스템 내 통신을 최적화하는 데 중요합니다. 이러한 기술은 컴퓨팅 계층의 여러 계층에 대한 인터커넥트의 다양화를 보여줍니다. 또한 800GbE 및 1.6TbE 이더넷의 개발과 포토닉스의 발전은 RoCE를 더욱 강력한 옵션으로 계속 만들 것입니다.
결론적으로, 고성능 네트워킹은 AI, HPC의 요구와 분산형 컴퓨팅으로의 전환에 의해 주도되는 복잡한 분야입니다. InfiniBand가 특수 환경에서 절대적인 성능을 주도하는 반면, RoCE v2는 RDMA의 이점과 이더넷의 보편성을 연결하는 강력하고 유연한 대안을 제공합니다. CXL과 NVLink의 등장은 다양한 통신 계층을 최적화하는 인터커넥트의 전략적 다양화를 나타냅니다. 최적의 솔루션은 항상 성능 요구 사항, 비용, 기존 인프라 및 미래 지향적인 비전의 전략적 균형이 될 것입니다.




