Новая HGX B200 предлагает значительный прирост производительности в задачах искусственного интеллекта по сравнению с HGX H200, особенно в таких областях, как операции с FP8, INT8, FP16/BF16 и TF32 Tensor Core, где она может похвастаться увеличением на 125%.
Однако, если посмотреть на производительность с FP32 и FP64, то здесь прирост скромнее – около 18.5%.
Удивительно, но производительность FP64 Tensor Core даже снижается – примерно на 40%.
B200 выигрывает в плане памяти, предлагая больший общий объем (1.5 ТБ против 1.1 ТБ) и удвоенную пропускную способность NVSwitch GPU-to-GPU. Эта более быстрая связь играет решающую роль в обучении масштабных моделей искусственного интеллекта.
Однако, когда в уравнение добавляется ориентировочная цена, все становится интереснее.
Цена B200 примерно на 21.5% выше, поэтому, хотя вы получаете значительный прирост в производительности ИИ, улучшение вычислительной мощности на доллар менее впечатляющее – около 85% для большинства операций ИИ (но все равно очень много).
Для рабочих нагрузок, в значительной степени зависящих от FP32 и FP64, вы можете даже получить немного меньше за свои деньги с B200.
Feature | Unit | HGX H200 (8x H200 SXM) | HGX B200 (8x B200 SXM) | Performance Difference | Compute per Dollar Difference |
---|---|---|---|---|---|
INT8 Tensor Core | POPS | 32 | 72 | 125.00% | 85.11% |
FP4 Tensor Core | PFLOPS | — | 144 | — | — |
FP6 Tensor Core | PFLOPS | — | 72 | — | — |
FP8 Tensor Core | PFLOPS | 32 | 72 | 125.00% | 85.11% |
FP16/BF16 Tensor Core | PFLOPS | 16 | 36 | 125.00% | 85.11% |
TF32 Tensor Core | PFLOPS | 8 | 18 | 125.00% | 85.11% |
FP32 | TFLOPS | 540 | 640 | 18.52% | -2.50% |
FP64 | TFLOPS | 270 | 320 | 18.52% | -2.50% |
FP64 Tensor Core | TFLOPS | 540 | 320 | -40.74% | -51.25% |
Memory | TB | 1.1 | 1.5 | 36.36% | 12.18% |
NVSwitch GPU-to-GPU Bandwidth | GB/s | 900 | 1800 | 100.00% | 64.52% |
Total Aggregate Bandwidth | TB/s | 7.2 | 14.4 | 100.00% | 64.52% |
Estimated Price | USD | 290000 | 352500 | 21.55% | — |