Den nye HGX B200 gir en massiv ytelsesforbedring for AI-arbeidsbelastninger sammenlignet med HGX H200, spesielt innen områder som FP8, INT8, FP16/BF16 og TF32 Tensor Core-operasjoner, hvor den skilter med en forbedring på 125 %.
Men når vi ser på FP32 og FP64, er forbedringen mindre, rundt 18,5 %.
Overraskende nok får faktisk FP64 Tensor Core-ytelsen et slag, og faller med omtrent 40 %.
B200 utmerker seg i minneavdelingen, og tilbyr en større total minnekapasitet (1,5 TB mot 1,1 TB) og en doblet NVSwitch GPU-til-GPU-båndbredde. Denne raskere kommunikasjonen er en game-changer for storskala AI-modelltrening.
Men når vi trekker inn den estimerte prisen, blir det interessant.
Prislappen på B200 er omtrent 21,5 % høyere, så selv om du får en stor økning i AI-ytelse, er forbedringen i datakraft per krone mindre dramatisk, på rundt 85 % for de fleste AI-operasjoner (fortsatt enormt).
For arbeidsbelastninger som er sterkt avhengig av FP32 og FP64, kan det hende du får litt mindre valuta for pengene med B200.
Funksjon | Enhet | HGX H200 (8x H200 SXM) | HGX B200 (8x B200 SXM) | Ytelsesforskjell | Datakraft per krone-forskjell |
---|---|---|---|---|---|
INT8 Tensor Core | POPS | 32 | 72 | 125.00% | 85.11% |
FP4 Tensor Core | PFLOPS | – | 144 | – | – |
FP6 Tensor Core | PFLOPS | – | 72 | – | – |
FP8 Tensor Core | PFLOPS | 32 | 72 | 125.00% | 85.11% |
FP16/BF16 Tensor Core | PFLOPS | 16 | 36 | 125.00% | 85.11% |
TF32 Tensor Core | PFLOPS | 8 | 18 | 125.00% | 85.11% |
FP32 | TFLOPS | 540 | 640 | 18.52% | -2.50% |
FP64 | TFLOPS | 270 | 320 | 18.52% | -2.50% |
FP64 Tensor Core | TFLOPS | 540 | 320 | -40.74% | -51.25% |
Minne | TB | 1.1 | 1.5 | 36.36% | 12.18% |
NVSwitch GPU-til-GPU Båndbredde | GB/s | 900 | 1800 | 100.00% | 64.52% |
Total aggregert båndbredde | TB/s | 7.2 | 14.4 | 100.00% | 64.52% |
Estimert pris | USD | 290000 | 352500 | 21.55% | – |