HGX B200 yang lebih baru menawarkan peningkatan performa yang signifikan untuk beban kerja AI dibandingkan dengan HGX H200, terutama dalam area seperti operasi FP8, INT8, FP16/BF16, dan TF32 Tensor Core, di mana ia menawarkan peningkatan sebesar 125%.
Namun, jika kita melihat FP32 dan FP64, peningkatannya lebih kecil, sekitar 18,5%.
Anehnya, performa FP64 Tensor Core justru mengalami penurunan, turun sekitar 40%.
B200 unggul dalam hal memori, menawarkan kapasitas memori total yang lebih besar (1,5 TB vs 1,1 TB) dan bandwidth NVSwitch GPU-ke-GPU yang dua kali lipat. Komunikasi yang lebih cepat ini sangat penting untuk pelatihan model AI skala besar.
Namun, ketika Anda mempertimbangkan perkiraan harga, situasinya menjadi menarik.
Harga B200 sekitar 21,5% lebih tinggi, jadi meskipun Anda mendapatkan peningkatan besar dalam performa AI, peningkatan komputasi per dolar tidak terlalu dramatis, sekitar 85% untuk sebagian besar operasi AI (tetap saja sangat besar).
Untuk beban kerja yang sangat bergantung pada FP32 dan FP64, Anda mungkin justru mendapatkan nilai yang sedikit lebih rendah dengan B200.
Fitur | Satuan | HGX H200 (8x H200 SXM) | HGX B200 (8x B200 SXM) | Perbedaan Performa | Perbedaan Komputasi per Dolar |
---|---|---|---|---|---|
INT8 Tensor Core | POPS | 32 | 72 | 125.00% | 85.11% |
FP4 Tensor Core | PFLOPS | – | 144 | – | – |
FP6 Tensor Core | PFLOPS | – | 72 | – | – |
FP8 Tensor Core | PFLOPS | 32 | 72 | 125.00% | 85.11% |
FP16/BF16 Tensor Core | PFLOPS | 16 | 36 | 125.00% | 85.11% |
TF32 Tensor Core | PFLOPS | 8 | 18 | 125.00% | 85.11% |
FP32 | TFLOPS | 540 | 640 | 18.52% | -2.50% |
FP64 | TFLOPS | 270 | 320 | 18.52% | -2.50% |
FP64 Tensor Core | TFLOPS | 540 | 320 | -40.74% | -51.25% |
Memori | TB | 1.1 | 1.5 | 36.36% | 12.18% |
Bandwidth NVSwitch GPU-ke-GPU | GB/s | 900 | 1800 | 100.00% | 64.52% |
Total Bandwidth Agregat | TB/s | 7.2 | 14.4 | 100.00% | 64.52% |
Perkiraan Harga | USD | 290000 | 352500 | 21.55% | – |