ה-HGX B200 החדש יותר מציע שיפור עצום בביצועים עבור עומסי עבודה של בינה מלאכותית בהשוואה ל-HGX H200, במיוחד בתחומים כמו פעולות FP8, INT8, FP16/BF16 ו-TF32 Tensor Core, שם הוא מתהדר בשיפור של 125%.
עם זאת, כשמסתכלים על FP32 ו-FP64, מדובר בקפיצה קטנה יותר, בסביבות ה-18.5%.
באופן מפתיע, הביצועים של FP64 Tensor Core אפילו נפגעים, יורדים בכ-40%.
ה-B200 כן מצטיין בגזרת הזיכרון, ומציע קיבולת זיכרון כוללת גדולה יותר (1.5TB לעומת 1.1TB) ורוחב פס NVSwitch GPU-to-GPU כפול. התקשורת המהירה יותר הזו משנה את כללי המשחק עבור אימון מודלים גדולים של בינה מלאכותית.
אבל כשמכניסים לתמונה את המחיר המשוער, הדברים נעשים מעניינים.
תג המחיר של ה-B200 גבוה בכ-21.5%, כך שלמרות שמקבלים שיפור גדול בביצועי בינה מלאכותית, השיפור בחישוב-לכל-דולר פחות דרמטי, ועומד על כ-85% עבור רוב פעולות הבינה המלאכותית (עדיין עצום).
עבור עומסי עבודה המסתמכים במידה רבה על FP32 ו-FP64, ייתכן שאפילו תקבלו קצת פחות תמורה לכסף שלכם עם ה-B200.
תכונה | יחידה | HGX H200 (8x H200 SXM) | HGX B200 (8x B200 SXM) | הבדל בביצועים | הבדל בחישוב לכל דולר |
---|---|---|---|---|---|
ליבת Tensor INT8 | POPS | 32 | 72 | 125.00% | 85.11% |
ליבת Tensor FP4 | PFLOPS | – | 144 | – | – |
ליבת Tensor FP6 | PFLOPS | – | 72 | – | – |
ליבת Tensor FP8 | PFLOPS | 32 | 72 | 125.00% | 85.11% |
ליבת Tensor FP16/BF16 | PFLOPS | 16 | 36 | 125.00% | 85.11% |
ליבת Tensor TF32 | PFLOPS | 8 | 18 | 125.00% | 85.11% |
FP32 | TFLOPS | 540 | 640 | 18.52% | -2.50% |
FP64 | TFLOPS | 270 | 320 | 18.52% | -2.50% |
ליבת Tensor FP64 | TFLOPS | 540 | 320 | -40.74% | -51.25% |
זיכרון | TB | 1.1 | 1.5 | 36.36% | 12.18% |
רוחב פס NVSwitch GPU-to-GPU | GB/s | 900 | 1800 | 100.00% | 64.52% |
רוחב פס מצטבר כולל | TB/s | 7.2 | 14.4 | 100.00% | 64.52% |
מחיר משוער | USD | 290000 | 352500 | 21.55% | – |