يقدم الجيل الجديد HGX B200 دفعة هائلة في الأداء لأعباء عمل الذكاء الاصطناعي مقارنة بـ HGX H200، خاصة في مجالات مثل عمليات FP8، INT8، FP16/BF16، وTF32 Tensor Core، حيث يتباهى بتحسن بنسبة 125٪.
ومع ذلك، عندما ننظر إلى FP32 و FP64، فإن القفزة أصغر، بنسبة حوالي 18.5٪.
المثير للدهشة أن أداء FP64 Tensor Core يتراجع بالفعل، وينخفض بحوالي 40٪.
يتألق B200 في قسم الذاكرة، حيث يقدم سعة ذاكرة إجمالية أكبر (1.5 تيرابايت مقابل 1.1 تيرابايت) و نطاق ترددي مضاعف من NVSwitch GPU-to-GPU. هذا الاتصال الأسرع يغير قواعد اللعبة لتدريب نماذج الذكاء الاصطناعي واسعة النطاق.
ومع ذلك، عندما تضع السعر التقديري في الصورة، يصبح الأمر مثيرًا للاهتمام.
سعر B200 أعلى بنسبة 21.5٪ تقريبًا، لذلك بينما تحصل على زيادة كبيرة في أداء الذكاء الاصطناعي، فإن التحسن في الحوسبة لكل دولار أقل حدة، حوالي 85٪ لمعظم عمليات الذكاء الاصطناعي (لا يزال ضخمًا).
بالنسبة لأعباء العمل التي تعتمد بشكل كبير على FP32 و FP64، قد تحصل حتى على قيمة أقل مقابل أموالك مع B200.
الميزة | الوحدة | HGX H200 (8x H200 SXM) | HGX B200 (8x B200 SXM) | فرق الأداء | فرق الحوسبة لكل دولار |
---|---|---|---|---|---|
INT8 Tensor Core | POPS | 32 | 72 | 125.00% | 85.11% |
FP4 Tensor Core | PFLOPS | – | 144 | – | – |
FP6 Tensor Core | PFLOPS | – | 72 | – | – |
FP8 Tensor Core | PFLOPS | 32 | 72 | 125.00% | 85.11% |
FP16/BF16 Tensor Core | PFLOPS | 16 | 36 | 125.00% | 85.11% |
TF32 Tensor Core | PFLOPS | 8 | 18 | 125.00% | 85.11% |
FP32 | TFLOPS | 540 | 640 | 18.52% | -2.50% |
FP64 | TFLOPS | 270 | 320 | 18.52% | -2.50% |
FP64 Tensor Core | TFLOPS | 540 | 320 | -40.74% | -51.25% |
الذاكرة | تيرابايت | 1.1 | 1.5 | 36.36% | 12.18% |
NVSwitch GPU-to-GPU Bandwidth | GB/s | 900 | 1800 | 100.00% | 64.52% |
إجمالي النطاق الترددي المجمع | تيرابايت/ث | 7.2 | 14.4 | 100.00% | 64.52% |
السعر المقدر | دولار أمريكي | 290000 | 352500 | 21.55% | – |