HGX B200 đời mới mang đến sự cải thiện vượt bậc về hiệu năng cho các tác vụ AI so với HGX H200, đặc biệt trong các lĩnh vực như FP8, INT8, FP16/BF16 và TF32 Tensor Core, với mức tăng 125%.
Tuy nhiên, khi xét đến FP32 và FP64, mức tăng này khiêm tốn hơn, chỉ khoảng 18,5%.
Đáng ngạc nhiên là hiệu năng FP64 Tensor Core lại giảm, mất khoảng 40%.
B200 vượt trội ở khả năng bộ nhớ, với dung lượng bộ nhớ tổng lớn hơn (1,5 TB so với 1,1 TB) và băng thông NVSwitch GPU-to-GPU tăng gấp đôi. Khả năng giao tiếp nhanh hơn này là một yếu tố thay đổi cuộc chơi đối với việc huấn luyện mô hình AI quy mô lớn.
Tuy nhiên, khi xem xét đến mức giá ước tính, mọi thứ trở nên thú vị hơn.
Giá của B200 cao hơn khoảng 21,5%, vì vậy mặc dù bạn có được sự tăng đáng kể về hiệu năng AI, nhưng mức cải thiện về hiệu năng tính toán trên mỗi đô la đầu tư lại ít ấn tượng hơn, chỉ khoảng 85% đối với hầu hết các hoạt động AI (dù vẫn rất lớn).
Đối với các tác vụ phụ thuộc nhiều vào FP32 và FP64, bạn thậm chí có thể nhận được hiệu quả kinh tế thấp hơn một chút với B200.
Tính năng | Đơn vị | HGX H200 (8x H200 SXM) | HGX B200 (8x B200 SXM) | Chênh lệch hiệu năng | Chênh lệch hiệu năng trên mỗi đô la |
---|---|---|---|---|---|
INT8 Tensor Core | POPS | 32 | 72 | 125.00% | 85.11% |
FP4 Tensor Core | PFLOPS | – | 144 | – | – |
FP6 Tensor Core | PFLOPS | – | 72 | – | – |
FP8 Tensor Core | PFLOPS | 32 | 72 | 125.00% | 85.11% |
FP16/BF16 Tensor Core | PFLOPS | 16 | 36 | 125.00% | 85.11% |
TF32 Tensor Core | PFLOPS | 8 | 18 | 125.00% | 85.11% |
FP32 | TFLOPS | 540 | 640 | 18.52% | -2.50% |
FP64 | TFLOPS | 270 | 320 | 18.52% | -2.50% |
FP64 Tensor Core | TFLOPS | 540 | 320 | -40.74% | -51.25% |
Bộ nhớ | TB | 1.1 | 1.5 | 36.36% | 12.18% |
Băng thông NVSwitch GPU-to-GPU | GB/s | 900 | 1800 | 100.00% | 64.52% |
Tổng băng thông gộp | TB/s | 7.2 | 14.4 | 100.00% | 64.52% |
Giá ước tính | USD | 290000 | 352500 | 21.55% | – |