Novější HGX B200 nabízí masivní nárůst výkonu pro AI workloady oproti HGX H200, a to zejména v oblastech jako jsou operace s FP8, INT8, FP16/BF16 a TF32 Tensor Core, kde se chlubí 125% zlepšením.
Nicméně, pokud se podíváme na FP32 a FP64, nárůst už není tak markantní, pohybuje se kolem 18,5 %.
Překvapivě výkon FP64 Tensor Core dokonce utrpěl ztrátu, snížil se zhruba o 40 %.
B200 exceluje v oblasti paměti, nabízí větší celkovou kapacitu paměti (1,5 TB vs. 1,1 TB) a dvojnásobnou šířku pásma NVSwitch GPU-to-GPU. Tato rychlejší komunikace představuje zásadní změnu pro trénování rozsáhlých AI modelů.
Když ale do rovnice zahrneme odhadovanou cenu, věci se začínají komplikovat.
Cenovka B200 je zhruba o 21,5 % vyšší, takže i když získáte značný nárůst výkonu v oblasti AI, zlepšení poměru výpočetního výkonu na dolar už není tak dramatické, pohybuje se okolo 85 % pro většinu AI operací (což je stále obrovské).
U workloadů, které se silně spoléhají na FP32 a FP64, byste dokonce mohli s B200 získat o něco méně muziky za své peníze.
Funkce | Jednotka | HGX H200 (8x H200 SXM) | HGX B200 (8x B200 SXM) | Rozdíl ve výkonu | Rozdíl ve výpočetním výkonu na dolar |
---|---|---|---|---|---|
INT8 Tensor Core | POPS | 32 | 72 | 125.00% | 85.11% |
FP4 Tensor Core | PFLOPS | – | 144 | – | – |
FP6 Tensor Core | PFLOPS | – | 72 | – | – |
FP8 Tensor Core | PFLOPS | 32 | 72 | 125.00% | 85.11% |
FP16/BF16 Tensor Core | PFLOPS | 16 | 36 | 125.00% | 85.11% |
TF32 Tensor Core | PFLOPS | 8 | 18 | 125.00% | 85.11% |
FP32 | TFLOPS | 540 | 640 | 18.52% | -2.50% |
FP64 | TFLOPS | 270 | 320 | 18.52% | -2.50% |
FP64 Tensor Core | TFLOPS | 540 | 320 | -40.74% | -51.25% |
Paměť | TB | 1.1 | 1.5 | 36.36% | 12.18% |
NVSwitch GPU-to-GPU šířka pásma | GB/s | 900 | 1800 | 100.00% | 64.52% |
Celková agregovaná šířka pásma | TB/s | 7.2 | 14.4 | 100.00% | 64.52% |
Odhadovaná cena | USD | 290000 | 352500 | 21.55% | – |