De nieuwere HGX B200 biedt een enorme prestatieverbetering voor AI-workloads in vergelijking met de HGX H200, met name op het gebied van FP8, INT8, FP16/BF16 en TF32 Tensor Core-operaties, waar hij een verbetering van 125% laat zien.
Kijken we echter naar FP32 en FP64, dan is de sprong kleiner, namelijk ongeveer 18,5%.
Verrassend genoeg daalt de prestatie van de FP64 Tensor Core zelfs, met een afname van ongeveer 40%.
De B200 blinkt wel uit op het gebied van geheugen, met een grotere totale geheugencapaciteit (1,5 TB vs 1,1 TB) en een verdubbelde NVSwitch GPU-naar-GPU bandbreedte. Deze snellere communicatie is een gamechanger voor grootschalige AI-modeltraining.
Maar wanneer de geschatte prijs in beeld komt, wordt het interessant.
Het prijskaartje van de B200 ligt ongeveer 21,5% hoger, dus hoewel je een grote boost in AI-prestaties krijgt, is de verbetering in compute-per-dollar minder spectaculair, namelijk ongeveer 85% voor de meeste AI-operaties (nog steeds enorm).
Voor workloads die sterk afhankelijk zijn van FP32 en FP64, krijg je met de B200 mogelijk zelfs iets minder waar voor je geld.
Feature | Unit | HGX H200 (8x H200 SXM) | HGX B200 (8x B200 SXM) | Performance Difference | Compute per Dollar Difference |
---|---|---|---|---|---|
INT8 Tensor Core | POPS | 32 | 72 | 125.00% | 85.11% |
FP4 Tensor Core | PFLOPS | – | 144 | – | – |
FP6 Tensor Core | PFLOPS | – | 72 | – | – |
FP8 Tensor Core | PFLOPS | 32 | 72 | 125.00% | 85.11% |
FP16/BF16 Tensor Core | PFLOPS | 16 | 36 | 125.00% | 85.11% |
TF32 Tensor Core | PFLOPS | 8 | 18 | 125.00% | 85.11% |
FP32 | TFLOPS | 540 | 640 | 18.52% | -2.50% |
FP64 | TFLOPS | 270 | 320 | 18.52% | -2.50% |
FP64 Tensor Core | TFLOPS | 540 | 320 | -40.74% | -51.25% |
Memory | TB | 1.1 | 1.5 | 36.36% | 12.18% |
NVSwitch GPU-to-GPU Bandwidth | GB/s | 900 | 1800 | 100.00% | 64.52% |
Total Aggregate Bandwidth | TB/s | 7.2 | 14.4 | 100.00% | 64.52% |
Estimated Price | USD | 290000 | 352500 | 21.55% | – |