HGX B200 รุ่นใหม่ ให้ประสิทธิภาพที่สูงขึ้นอย่างมากสำหรับงาน AI เมื่อเทียบกับ HGX H200 โดยเฉพาะในส่วนของการทำงานของ FP8, INT8, FP16/BF16 และ TF32 Tensor Core ซึ่งมีการปรับปรุงไปถึง 125%
แต่เมื่อพิจารณาที่ FP32 และ FP64 จะเห็นว่ามีการกระโดดที่ไม่มากนัก อยู่ที่ประมาณ 18.5%
ที่น่าแปลกใจคือ ประสิทธิภาพของ FP64 Tensor Core กลับลดลง ประมาณ 40%
B200 ทำได้ดีในเรื่องของหน่วยความจำ โดยมี ความจุหน่วยความจำรวมที่มากกว่า (1.5 TB เทียบกับ 1.1 TB) และ แบนด์วิดท์ NVSwitch GPU-to-GPU ที่เพิ่มขึ้นเป็นสองเท่า การสื่อสารที่เร็วขึ้นนี้ถือเป็นจุดเปลี่ยนสำคัญสำหรับการฝึกโมเดล AI ขนาดใหญ่
อย่างไรก็ตาม เมื่อนำราคาโดยประมาณมาพิจารณาด้วยแล้ว สิ่งต่างๆ ก็เริ่มน่าสนใจ
ราคาของ B200 สูงกว่าประมาณ 21.5% ดังนั้น แม้ว่าคุณจะได้รับประสิทธิภาพ AI ที่สูงขึ้นอย่างมาก แต่การปรับปรุงด้าน compute-per-dollar นั้นไม่มากเท่า อยู่ที่ ประมาณ 85% สำหรับการทำงานของ AI ส่วนใหญ่ (ซึ่งก็ยังถือว่าเยอะอยู่ดี)
สำหรับงานที่ต้องพึ่งพา FP32 และ FP64 อย่างมาก คุณอาจจะได้รับ ความคุ้มค่าน้อยกว่าเล็กน้อย เมื่อใช้ B200
Feature | Unit | HGX H200 (8x H200 SXM) | HGX B200 (8x B200 SXM) | Performance Difference | Compute per Dollar Difference |
---|---|---|---|---|---|
INT8 Tensor Core | POPS | 32 | 72 | 125.00% | 85.11% |
FP4 Tensor Core | PFLOPS | – | 144 | – | – |
FP6 Tensor Core | PFLOPS | – | 72 | – | – |
FP8 Tensor Core | PFLOPS | 32 | 72 | 125.00% | 85.11% |
FP16/BF16 Tensor Core | PFLOPS | 16 | 36 | 125.00% | 85.11% |
TF32 Tensor Core | PFLOPS | 8 | 18 | 125.00% | 85.11% |
FP32 | TFLOPS | 540 | 640 | 18.52% | -2.50% |
FP64 | TFLOPS | 270 | 320 | 18.52% | -2.50% |
FP64 Tensor Core | TFLOPS | 540 | 320 | -40.74% | -51.25% |
Memory | TB | 1.1 | 1.5 | 36.36% | 12.18% |
NVSwitch GPU-to-GPU Bandwidth | GB/s | 900 | 1800 | 100.00% | 64.52% |
Total Aggregate Bandwidth | TB/s | 7.2 | 14.4 | 100.00% | 64.52% |
Estimated Price | USD | 290000 | 352500 | 21.55% | – |