Save and Share:
새로 출시된 HGX B200은 HGX H200에 비해 AI 워크로드 성능이 대폭 향상되었으며, 특히 FP8, INT8, FP16/BF16, TF32 텐서 코어 연산에서 125% 향상된 성능을 자랑합니다.
하지만 FP32 및 FP64의 경우, 약 18.5% 정도로 향상 폭이 줄어듭니다.
놀랍게도 FP64 텐서 코어 성능은 오히려 약 40% 감소합니다.
B200은 메모리 용량 면에서 강점을 보이는데, 총 메모리 용량이 더 크고(1.5TB vs 1.1TB), NVSwitch GPU-to-GPU 대역폭이 두 배로 늘어났습니다. 이처럼 빠른 통신 속도는 대규모 AI 모델 훈련에 큰 변화를 가져올 것입니다.
하지만 예상 가격을 고려하면 상황이 흥미로워집니다.
B200의 가격은 약 21.5% 더 높습니다. 따라서 AI 성능은 크게 향상되지만, 가격 대비 연산 성능 향상은 대부분의 AI 연산에서 약 85%로 (여전히 엄청나지만) 덜 극적입니다.
FP32 및 FP64에 크게 의존하는 워크로드의 경우, B200이 가격 대비 성능이 약간 떨어질 수도 있습니다.
Feature | Unit | HGX H200 (8x H200 SXM) | HGX B200 (8x B200 SXM) | Performance Difference | Compute per Dollar Difference |
---|---|---|---|---|---|
INT8 Tensor Core | POPS | 32 | 72 | 125.00% | 85.11% |
FP4 Tensor Core | PFLOPS | – | 144 | – | – |
FP6 Tensor Core | PFLOPS | – | 72 | – | – |
FP8 Tensor Core | PFLOPS | 32 | 72 | 125.00% | 85.11% |
FP16/BF16 Tensor Core | PFLOPS | 16 | 36 | 125.00% | 85.11% |
TF32 Tensor Core | PFLOPS | 8 | 18 | 125.00% | 85.11% |
FP32 | TFLOPS | 540 | 640 | 18.52% | -2.50% |
FP64 | TFLOPS | 270 | 320 | 18.52% | -2.50% |
FP64 Tensor Core | TFLOPS | 540 | 320 | -40.74% | -51.25% |
Memory | TB | 1.1 | 1.5 | 36.36% | 12.18% |
NVSwitch GPU-to-GPU Bandwidth | GB/s | 900 | 1800 | 100.00% | 64.52% |
Total Aggregate Bandwidth | TB/s | 7.2 | 14.4 | 100.00% | 64.52% |
Estimated Price | USD | 290000 | 352500 | 21.55% | – |