Das neuere HGX B200 bietet im Vergleich zum HGX H200 eine massive Leistungssteigerung für KI-Workloads, insbesondere in Bereichen wie FP8, INT8, FP16/BF16 und TF32 Tensor Core-Operationen, wo es eine Verbesserung von 125 % erzielt.
Betrachtet man jedoch FP32 und FP64, ist der Sprung mit rund 18,5 % geringer.
Überraschenderweise verzeichnet die FP64 Tensor Core-Leistung sogar einen Einbruch und sinkt um etwa 40 %.
Das B200 glänzt jedoch im Speicherbereich und bietet eine größere Gesamtspeicherkapazität (1,5 TB vs. 1,1 TB) sowie eine verdoppelte NVSwitch GPU-zu-GPU-Bandbreite. Diese schnellere Kommunikation ist ein entscheidender Vorteil für das Training von umfangreichen KI-Modellen.
Wenn man jedoch den geschätzten Preis mit einbezieht, wird es interessant.
Der Preis des B200 liegt etwa 21,5 % höher. Obwohl man also eine deutliche Steigerung der KI-Leistung erhält, ist die Verbesserung des Preis-Leistungs-Verhältnisses mit etwa 85 % für die meisten KI-Operationen weniger dramatisch (aber immer noch enorm).
Für Workloads, die stark auf FP32 und FP64 basieren, erhält man mit dem B200 möglicherweise sogar etwas weniger für sein Geld.
Feature | Unit | HGX H200 (8x H200 SXM) | HGX B200 (8x B200 SXM) | Performance Difference | Compute per Dollar Difference |
---|---|---|---|---|---|
INT8 Tensor Core | POPS | 32 | 72 | 125.00% | 85.11% |
FP4 Tensor Core | PFLOPS | – | 144 | – | – |
FP6 Tensor Core | PFLOPS | – | 72 | – | – |
FP8 Tensor Core | PFLOPS | 32 | 72 | 125.00% | 85.11% |
FP16/BF16 Tensor Core | PFLOPS | 16 | 36 | 125.00% | 85.11% |
TF32 Tensor Core | PFLOPS | 8 | 18 | 125.00% | 85.11% |
FP32 | TFLOPS | 540 | 640 | 18.52% | -2.50% |
FP64 | TFLOPS | 270 | 320 | 18.52% | -2.50% |
FP64 Tensor Core | TFLOPS | 540 | 320 | -40.74% | -51.25% |
Memory | TB | 1.1 | 1.5 | 36.36% | 12.18% |
NVSwitch GPU-to-GPU Bandwidth | GB/s | 900 | 1800 | 100.00% | 64.52% |
Total Aggregate Bandwidth | TB/s | 7.2 | 14.4 | 100.00% | 64.52% |
Estimated Price | USD | 290000 | 352500 | 21.55% | – |