Save and Share:
新型のHGX B200は、特にFP8、INT8、FP16/BF16、TF32 Tensor Core演算において、AIワークロードのパフォーマンスをHGX H200と比較して大幅に向上させ、125%の向上を誇ります。
しかし、FP32とFP64を見ると、その差は小さく、約18.5%の向上にとどまります。
驚くべきことに、FP64 Tensor Coreのパフォーマンスは実際には低下し、約40%減少しています。
B200はメモリ容量の点で優れており、総メモリ容量が大きく(1.5 TB vs 1.1 TB)、NVSwitchのGPU間帯域幅が2倍になっています。この高速な通信は、大規模なAIモデルのトレーニングにおいて非常に重要です。
ただし、推定価格を考慮に入れると、状況は興味深いものになります。
B200の価格は約21.5%高く、AIパフォーマンスは大幅に向上するものの、コストあたりの計算能力の向上はそれほど劇的ではなく、ほとんどのAI演算で約85%です(それでも大きいですが)。
FP32とFP64に大きく依存するワークロードの場合、B200ではコストパフォーマンスがわずかに低下する可能性さえあります。
Feature | Unit | HGX H200 (8x H200 SXM) | HGX B200 (8x B200 SXM) | Performance Difference | Compute per Dollar Difference |
---|---|---|---|---|---|
INT8 Tensor Core | POPS | 32 | 72 | 125.00% | 85.11% |
FP4 Tensor Core | PFLOPS | – | 144 | – | – |
FP6 Tensor Core | PFLOPS | – | 72 | – | – |
FP8 Tensor Core | PFLOPS | 32 | 72 | 125.00% | 85.11% |
FP16/BF16 Tensor Core | PFLOPS | 16 | 36 | 125.00% | 85.11% |
TF32 Tensor Core | PFLOPS | 8 | 18 | 125.00% | 85.11% |
FP32 | TFLOPS | 540 | 640 | 18.52% | -2.50% |
FP64 | TFLOPS | 270 | 320 | 18.52% | -2.50% |
FP64 Tensor Core | TFLOPS | 540 | 320 | -40.74% | -51.25% |
Memory | TB | 1.1 | 1.5 | 36.36% | 12.18% |
NVSwitch GPU-to-GPU Bandwidth | GB/s | 900 | 1800 | 100.00% | 64.52% |
Total Aggregate Bandwidth | TB/s | 7.2 | 14.4 | 100.00% | 64.52% |
Estimated Price | USD | 290000 | 352500 | 21.55% | – |