নতুন HGX B200, AI ওয়ার্কলোডের জন্য HGX H200-এর চেয়ে অনেক বেশি পারফর্মেন্স দিতে সক্ষম, বিশেষ করে FP8, INT8, FP16/BF16, এবং TF32 Tensor Core অপারেশনের ক্ষেত্রে এটি ১২৫% বেশি উন্নতি দেখায়।
তবে, FP32 এবং FP64-এর দিকে তাকালে দেখা যায় উন্নতিটা তুলনামূলকভাবে কম, প্রায় ১৮.৫%।
আশ্চর্যজনকভাবে, FP64 Tensor Core-এর পারফরম্যান্স কিছুটা কমে যায়, প্রায় ৪০% এর মতো হ্রাস পায়।
মেমোরির ক্ষেত্রে B200 সত্যিই উজ্জ্বল, এটি বিশাল মেমোরি ধারণক্ষমতা (১.৫ TB বনাম ১.১ TB) এবং দ্বিগুণ NVSwitch GPU-থেকে-GPU ব্যান্ডউইথ প্রদান করে। এই দ্রুততর যোগাযোগ বৃহৎ আকারের AI মডেল প্রশিক্ষণের জন্য খুবই গুরুত্বপূর্ণ।
তবে, যখন আনুমানিক দামের বিষয়টি সামনে আসে, তখন পরিস্থিতি আরও интересное হয়ে ওঠে।
B200-এর দাম প্রায় ২১.৫% বেশি, তাই AI পারফরম্যান্সে বড় ধরনের উন্নতি পাওয়া গেলেও, কম্পিউট-প্রতি-ডলারের উন্নতি তুলনামূলকভাবে কম, প্রায় ৮৫% (যা এখনও অনেক বেশি)।
যেসব ওয়ার্কলোড FP32 এবং FP64-এর ওপর বেশি নির্ভরশীল, সেক্ষেত্রে B200 থেকে সামান্য কম সুবিধা পাওয়া যেতে পারে।
বৈশিষ্ট্য | ইউনিট | HGX H200 (8x H200 SXM) | HGX B200 (8x B200 SXM) | পারফরম্যান্সের পার্থক্য | কম্পিউট প্রতি ডলারের পার্থক্য |
---|---|---|---|---|---|
INT8 Tensor Core | POPS | ৩২ | ৭২ | ১২৫.০০% | ৮৫.১১% |
FP4 Tensor Core | PFLOPS | – | ১৪৪ | – | – |
FP6 Tensor Core | PFLOPS | – | ৭২ | – | – |
FP8 Tensor Core | PFLOPS | ৩২ | ৭২ | ১২৫.০০% | ৮৫.১১% |
FP16/BF16 Tensor Core | PFLOPS | ১৬ | ৩৬ | ১২৫.০০% | ৮৫.১১% |
TF32 Tensor Core | PFLOPS | ৮ | ১৮ | ১২৫.০০% | ৮৫.১১% |
FP32 | TFLOPS | ৫৪০ | ৬৪০ | ১৮.৫২% | -২.৫০% |
FP64 | TFLOPS | ২৭০ | ৩২০ | ১৮.৫২% | -২.৫০% |
FP64 Tensor Core | TFLOPS | ৫৪০ | ৩২০ | -৪০.৭৪% | -৫১.২৫% |
মেমরি | TB | ১.১ | ১.৫ | ৩৬.৩৬% | ১২.১৮% |
NVSwitch GPU-to-GPU ব্যান্ডউইথ | GB/s | ৯০০ | ১৮০০ | ১০০.০০% | ৬৪.৫২% |
মোট ব্যান্ডউইথ | TB/s | ৭.২ | ১৪.৪ | ১০০.০০% | ৬৪.৫২% |
আনুমানিক মূল্য | USD | ২৯০০০০ | ৩৫২৫০০ | ২১.৫৫% | – |