Save and Share:
相較於 HGX H200,新款 HGX B200 在 AI 工作負載的效能上有大幅提升,尤其是在 FP8、INT8、FP16/BF16 和 TF32 Tensor Core 運算等領域,效能提升幅度高達 125%。
不過,若以 FP32 和 FP64 來看,效能提升幅度較小,約為 18.5%。
令人意外的是,FP64 Tensor Core 的效能實際上反而下降了,降幅約為 40%。
B200 在記憶體方面表現出色,提供更大的總記憶體容量(1.5 TB vs 1.1 TB)和雙倍的 NVSwitch GPU 對 GPU 頻寬。這種更快的通訊速度對於大規模 AI 模型訓練來說,是一項重大變革。
然而,將預估價格納入考量後,情況變得更有趣了。
B200 的價格高出約 21.5%,因此雖然在 AI 效能方面有顯著提升,但每單位美元的運算效能提升幅度並不明顯,大多數 AI 運算約為 85%(仍然相當可觀)。
對於嚴重依賴 FP32 和 FP64 的工作負載來說,B200 甚至可能性價比略低。
功能 | 單位 | HGX H200 (8x H200 SXM) | HGX B200 (8x B200 SXM) | 效能差異 | 每美元運算效能差異 |
---|---|---|---|---|---|
INT8 Tensor Core | POPS | 32 | 72 | 125.00% | 85.11% |
FP4 Tensor Core | PFLOPS | – | 144 | – | – |
FP6 Tensor Core | PFLOPS | – | 72 | – | – |
FP8 Tensor Core | PFLOPS | 32 | 72 | 125.00% | 85.11% |
FP16/BF16 Tensor Core | PFLOPS | 16 | 36 | 125.00% | 85.11% |
TF32 Tensor Core | PFLOPS | 8 | 18 | 125.00% | 85.11% |
FP32 | TFLOPS | 540 | 640 | 18.52% | -2.50% |
FP64 | TFLOPS | 270 | 320 | 18.52% | -2.50% |
FP64 Tensor Core | TFLOPS | 540 | 320 | -40.74% | -51.25% |
記憶體 | TB | 1.1 | 1.5 | 36.36% | 12.18% |
NVSwitch GPU-to-GPU 頻寬 | GB/s | 900 | 1800 | 100.00% | 64.52% |
總聚合頻寬 | TB/s | 7.2 | 14.4 | 100.00% | 64.52% |
預估價格 | USD | 290000 | 352500 | 21.55% | – |