HGX B200 جدیدتر، در مقایسه با HGX H200، بهویژه در زمینههایی مانند عملیات FP8، INT8، FP16/BF16 و TF32 Tensor Core، با بهبود ۱۲۵ درصدی، عملکرد بسیار بهتری را در حجمهای کاری هوش مصنوعی ارائه میدهد.
با این حال، وقتی به FP32 و FP64 نگاه میکنیم، این جهش کوچکتر و در حدود ۱۸.۵٪ است.
نکتهی شگفتانگیز این است که عملکرد FP64 Tensor Core در واقع کاهش مییابد و حدود ۴۰٪ افت میکند.
B200 در بخش حافظه خوش میدرخشد و ظرفیت حافظهی کل بزرگتری (۱.۵ ترابایت در مقابل ۱.۱ ترابایت) و دو برابر پهنای باند NVSwitch GPU-to-GPU را ارائه میدهد. این ارتباط سریعتر، یک مزیت بزرگ برای آموزش مدلهای هوش مصنوعی در مقیاس بزرگ است.
با این حال، وقتی قیمت تخمینی را وارد معادله میکنید، اوضاع جالب میشود.
برچسب قیمت B200 حدود ۲۱.۵٪ بالاتر است، بنابراین در حالی که یک افزایش بزرگ در عملکرد هوش مصنوعی دریافت میکنید، بهبودِ محاسبه به ازای هر دلار کمتر چشمگیر است و حدود ۸۵٪ برای اکثر عملیات هوش مصنوعی است (که هنوز هم بسیار زیاد است).
برای حجمهای کاری که به شدت به FP32 و FP64 متکی هستند، ممکن است حتی با B200 کمی کمتر از پول خود بهره ببرید.
ویژگی | واحد | HGX H200 (8x H200 SXM) | HGX B200 (8x B200 SXM) | تفاوت عملکرد | تفاوت محاسبه به ازای هر دلار |
---|---|---|---|---|---|
INT8 Tensor Core | POPS | ۳۲ | ۷۲ | ۱۲۵.۰۰% | ۸۵.۱۱% |
FP4 Tensor Core | PFLOPS | – | ۱۴۴ | – | – |
FP6 Tensor Core | PFLOPS | – | ۷۲ | – | – |
FP8 Tensor Core | PFLOPS | ۳۲ | ۷۲ | ۱۲۵.۰۰% | ۸۵.۱۱% |
FP16/BF16 Tensor Core | PFLOPS | ۱۶ | ۳۶ | ۱۲۵.۰۰% | ۸۵.۱۱% |
TF32 Tensor Core | PFLOPS | ۸ | ۱۸ | ۱۲۵.۰۰% | ۸۵.۱۱% |
FP32 | TFLOPS | ۵۴۰ | ۶۴۰ | ۱۸.۵۲% | -۲.۵۰% |
FP64 | TFLOPS | ۲۷۰ | ۳۲۰ | ۱۸.۵۲% | -۲.۵۰% |
FP64 Tensor Core | TFLOPS | ۵۴۰ | ۳۲۰ | -۴۰.۷۴% | -۵۱.۲۵% |
حافظه | TB | ۱.۱ | ۱.۵ | ۳۶.۳۶% | ۱۲.۱۸% |
پهنای باند NVSwitch GPU-to-GPU | GB/s | ۹۰۰ | ۱۸۰۰ | ۱۰۰.۰۰% | ۶۴.۵۲% |
پهنای باند تجمیعی کل | TB/s | ۷.۲ | ۱۴.۴ | ۱۰۰.۰۰% | ۶۴.۵۲% |
قیمت تخمینی | USD | ۲۹۰۰۰۰ | ۳۵۲۵۰۰ | ۲۱.۵۵% | – |