Yeni HGX B200, özellikle FP8, INT8, FP16/BF16 ve TF32 Tensor Çekirdeği işlemleri gibi alanlarda %125’lik bir iyileşme sağlayarak, yapay zeka iş yükleri için HGX H200‘e kıyasla muazzam bir performans artışı sunuyor.
Ancak FP32 ve FP64‘e baktığımızda, bu artış %18,5 civarında daha küçük bir adım olarak kalıyor.
Şaşırtıcı bir şekilde, FP64 Tensor Çekirdeği performansı aslında düşüş göstererek yaklaşık %40 oranında azalıyor.
B200, daha büyük toplam bellek kapasitesi (1,5 TB’a karşı 1,1 TB) ve iki katına çıkarılmış NVSwitch GPU-GPU bant genişliği sunarak bellek konusunda parlıyor. Bu daha hızlı iletişim, büyük ölçekli yapay zeka modeli eğitimi için oyunun kurallarını değiştiriyor.
Ancak tahmini fiyatı devreye soktuğunuzda işler ilginçleşiyor.
B200’ün fiyat etiketi yaklaşık %21,5 daha yüksek, bu nedenle yapay zeka performansında büyük bir artış elde etseniz de, dolar başına bilgi işlem gücü iyileşmesi, çoğu yapay zeka işlemi için yaklaşık %85 ile daha az dramatik (yine de çok büyük).
Ağırlıklı olarak FP32 ve FP64‘e dayanan iş yükleri için, B200 ile paranızın karşılığını biraz daha az alıyor olabilirsiniz.
Özellik | Birim | HGX H200 (8x H200 SXM) | HGX B200 (8x B200 SXM) | Performans Farkı | Dolar Başına Bilgi İşlem Gücü Farkı |
---|---|---|---|---|---|
INT8 Tensor Çekirdeği | POPS | 32 | 72 | %125,00 | %85,11 |
FP4 Tensor Çekirdeği | PFLOPS | – | 144 | – | – |
FP6 Tensor Çekirdeği | PFLOPS | – | 72 | – | – |
FP8 Tensor Çekirdeği | PFLOPS | 32 | 72 | %125,00 | %85,11 |
FP16/BF16 Tensor Çekirdeği | PFLOPS | 16 | 36 | %125,00 | %85,11 |
TF32 Tensor Çekirdeği | PFLOPS | 8 | 18 | %125,00 | %85,11 |
FP32 | TFLOPS | 540 | 640 | %18,52 | -%2,50 |
FP64 | TFLOPS | 270 | 320 | %18,52 | -%2,50 |
FP64 Tensor Çekirdeği | TFLOPS | 540 | 320 | -%40,74 | -%51,25 |
Bellek | TB | 1,1 | 1,5 | %36,36 | %12,18 |
NVSwitch GPU-GPU Bant Genişliği | GB/sn | 900 | 1800 | %100,00 | %64,52 |
Toplam Birleştirilmiş Bant Genişliği | TB/sn | 7,2 | 14,4 | %100,00 | %64,52 |
Tahmini Fiyat | USD | 290000 | 352500 | %21,55 | – |