Uudempi HGX B200 tarjoaa huomattavan suorituskyvyn parannuksen tekoälykuormille verrattuna HGX H200 -malliin, erityisesti FP8-, INT8-, FP16/BF16- ja TF32 Tensor Core -operaatioissa, joissa se ylpeilee 125 prosentin parannuksella.
Kuitenkin, kun tarkastellaan FP32– ja FP64-lukuja, parannus on pienempi, noin 18,5 prosentin luokkaa.
Yllättäen FP64 Tensor Core -suorituskyky itse asiassa laskee, noin 40 prosenttia.
B200 loistaa muistin osalta, tarjoten suuremman kokonaismuistikapasiteetin (1,5 TB vs. 1,1 TB) ja kaksinkertaisen NVSwitch GPU-GPU-kaistanleveyden. Tämä nopeampi tiedonsiirto on merkittävä etu suurten tekoälymallien koulutuksessa.
Asiat muuttuvat kuitenkin mielenkiintoisiksi, kun arvioitu hinta otetaan huomioon.
B200:n hinta on noin 21,5 prosenttia korkeampi, joten vaikka tekoälysuorituskyky paranee huomattavasti, laskentateho per dollari -parannus ei ole yhtä dramaattinen, noin 85 prosenttia useimpien tekoälyoperaatioiden kohdalla (mikä on silti valtava parannus).
Työkuormissa, jotka tukeutuvat vahvasti FP32– ja FP64-laskentaan, saatat jopa saada hieman vähemmän vastinetta rahoillesi B200:n kanssa.
Ominaisuus | Yksikkö | HGX H200 (8x H200 SXM) | HGX B200 (8x B200 SXM) | Suorituskykyero | Laskentateho per dollari -ero |
---|---|---|---|---|---|
INT8 Tensor Core | POPS | 32 | 72 | 125.00% | 85.11% |
FP4 Tensor Core | PFLOPS | – | 144 | – | – |
FP6 Tensor Core | PFLOPS | – | 72 | – | – |
FP8 Tensor Core | PFLOPS | 32 | 72 | 125.00% | 85.11% |
FP16/BF16 Tensor Core | PFLOPS | 16 | 36 | 125.00% | 85.11% |
TF32 Tensor Core | PFLOPS | 8 | 18 | 125.00% | 85.11% |
FP32 | TFLOPS | 540 | 640 | 18.52% | -2.50% |
FP64 | TFLOPS | 270 | 320 | 18.52% | -2.50% |
FP64 Tensor Core | TFLOPS | 540 | 320 | -40.74% | -51.25% |
Muisti | TB | 1.1 | 1.5 | 36.36% | 12.18% |
NVSwitch GPU-GPU-kaistanleveys | GB/s | 900 | 1800 | 100.00% | 64.52% |
Kokonaismääräinen kaistanleveys | TB/s | 7.2 | 14.4 | 100.00% | 64.52% |
Arvioitu hinta | USD | 290000 | 352500 | 21.55% | – |