Save and Share:
新款 HGX B200 在 AI 工作负载方面,性能相比 HGX H200 实现了巨大的提升,尤其是在 FP8、INT8、FP16/BF16 和 TF32 Tensor Core 运算等领域,性能提升高达 125%。
然而,在 FP32 和 FP64 方面,提升幅度较小,约为 18.5%。
令人惊讶的是,FP64 Tensor Core 的性能实际上有所下降,降幅约为 40%。
B200 在内存方面表现出色,提供了更大的总内存容量(1.5 TB 对比 1.1 TB)和翻倍的 NVSwitch GPU-to-GPU 带宽。这种更快的通信对于大规模 AI 模型训练来说,是一个颠覆性的改变。
但是,当考虑到估计价格时,情况就变得有趣了。
B200 的价格高出约 21.5%,因此,虽然 AI 性能得到了大幅提升,但每美元的计算性能提升幅度并不那么显著,对于大多数 AI 运算来说,约为 85%(仍然非常可观)。
对于严重依赖 FP32 和 FP64 的工作负载,使用 B200 甚至可能性价比略低。
特性 | 单位 | HGX H200 (8x H200 SXM) | HGX B200 (8x B200 SXM) | 性能差异 | 每美元计算性能差异 |
---|---|---|---|---|---|
INT8 Tensor Core | POPS | 32 | 72 | 125.00% | 85.11% |
FP4 Tensor Core | PFLOPS | – | 144 | – | – |
FP6 Tensor Core | PFLOPS | – | 72 | – | – |
FP8 Tensor Core | PFLOPS | 32 | 72 | 125.00% | 85.11% |
FP16/BF16 Tensor Core | PFLOPS | 16 | 36 | 125.00% | 85.11% |
TF32 Tensor Core | PFLOPS | 8 | 18 | 125.00% | 85.11% |
FP32 | TFLOPS | 540 | 640 | 18.52% | -2.50% |
FP64 | TFLOPS | 270 | 320 | 18.52% | -2.50% |
FP64 Tensor Core | TFLOPS | 540 | 320 | -40.74% | -51.25% |
内存 | TB | 1.1 | 1.5 | 36.36% | 12.18% |
NVSwitch GPU-to-GPU 带宽 | GB/s | 900 | 1800 | 100.00% | 64.52% |
总聚合带宽 | TB/s | 7.2 | 14.4 | 100.00% | 64.52% |
估计价格 | 美元 | 290000 | 352500 | 21.55% | – |