تحلیل جامع اتصالات داخلی با عملکرد بالا: RoCE v2، InfiniBand، iWARP و جایگزین‌های نوظهور برای مراکز داده مدرن

دسته‌بندی شده در Hardware
Save and Share:

۱. خلاصه اجرایی

مراکز داده مدرن باید از بارهای کاری سنگینی مانند رایانش با عملکرد بالا (HPC)، هوش مصنوعی/یادگیری ماشین (AI/ML) و تحلیل کلان‌داده‌ها پشتیبانی کنند. این برنامه‌ها به تأخیر بسیار کم، پهنای باند بالا و حداقل استفاده از CPU نیاز دارند. پروتکل‌های شبکه سنتی مانند TCP/IP به دلیل سربار و تأخیر بالا، قادر به تأمین این نیازها نیستند.

دسترسی مستقیم به حافظه از راه دور (RDMA) فناوری کلیدی است که اتصالات داخلی با عملکرد بالا را ممکن می‌سازد. RDMA به کامپیوترهای متصل به شبکه اجازه می‌دهد تا داده‌ها را مستقیماً بین حافظه‌های خود و بدون دخالت سیستم‌عامل یا CPU (از حافظه به حافظه) منتقل کنند. این فرآیند به‌طور چشمگیری تأخیر و بار CPU را کاهش می‌دهد.

  • InfiniBand یک ساختار اختصاصی و هدفمند است که برای دستیابی به بالاترین عملکرد ممکن و عملیات بدون اتلاف ذاتی طراحی شده است.
  • RoCE v2 (RDMA over Converged Ethernet) مزایای RDMA را بر روی اترنت استاندارد اعمال می‌کند و گزینه‌ای قابل مسیریابی و مقرون‌به‌صرفه‌تر ارائه می‌دهد، اما برای بدون اتلاف بودن به پیکربندی‌های خاصی نیاز دارد.
  • iWARP راه‌حل دیگری برای RDMA روی اترنت مبتنی بر TCP است، اما عموماً کمتر رایج بوده و عملکرد پایین‌تری نسبت به RoCE v2 دارد.

انتخاب اتصال داخلی مناسب، یک تصمیم راهبردی است که به نیازهای عملکردی، بودجه، زیرساخت موجود و اهداف مقیاس‌پذیری بستگی دارد. این گزارش این فناوری‌ها را تحلیل کرده، آن‌ها را با اترنت/TCP/IP استاندارد مقایسه می‌کند و جایگزین‌های جدیدی مانند CXL و NVLink را برای کمک به این تصمیم حیاتی بررسی می‌نماید.

۲. مقدمه‌ای بر شبکه‌های با عملکرد بالا و RDMA

دنیای دیجیتال امروز با رشد تصاعدی برنامه‌های کاربردی سنگین داده‌محور مانند رایانش با عملکرد بالا (HPC)، هوش مصنوعی/یادگیری ماشین (AI/ML) و تحلیل کلان‌داده‌ها مشخص می‌شود. این بارهای کاری باید مجموعه‌های داده عظیم را به‌سرعت و با کارایی بالا بین گره‌های محاسباتی و ذخیره‌سازی جابجا کنند. برای مثال، برنامه‌های هوش مصنوعی به یکپارچگی داده‌ها بسیار حساس هستند و به شبکه‌های بدون اتلاف نیاز دارند، جایی که از دست رفتن حتی یک پیام می‌تواند کل فرآیند آموزش را خراب کند. ترافیک با پهنای باند بالا نیز برای پردازش کارآمد داده‌ها در این برنامه‌ها ضروری است.

محدودیت‌های اترنت TCP/IP سنتی برای برنامه‌های با عملکرد بالا

اترنت TCP/IP سنتی، با وجود قابلیت اطمینان برای شبکه‌های عمومی، محدودیت‌های عمده‌ای برای برنامه‌های با عملکرد بالا دارد:

  • تأخیر و سربار بالای CPU: طراحی TCP/IP داده‌ها را از طریق چندین لایه نرم‌افزاری در هسته سیستم‌عامل ارسال می‌کند که نیازمند درگیری قابل‌توجه CPU است. این فرآیند تأخیر قابل‌ملاحظه‌ای (معمولاً ده‌ها میکروثانیه) اضافه کرده و بار سنگینی بر CPU تحمیل می‌کند. برای برنامه‌های حساس به تأخیر، این موضوع به یک گلوگاه اصلی تبدیل می‌شود، زیرا CPU به جای اجرای برنامه، وقت خود را صرف مدیریت ترافیک شبکه می‌کند. این «مالیات CPU» ناشی از تعویض زمینه (context switching) و کپی داده، دلیل اصلی پذیرش فناوری‌های RDMA است که پردازش شبکه را تخلیه (offload) کرده و CPU را برای وظایف برنامه آزاد می‌کنند.
  • محدودیت‌های توان عملیاتی: چندین عامل توان عملیاتی مؤثر TCP را محدود می‌کنند، از جمله اندازه پنجره انتقال، اندازه قطعه (segment) و از دست رفتن بسته‌ها. اندازه استاندارد پنجره TCP (که اغلب به ۶۵,۵۳۵ بایت محدود می‌شود) می‌تواند از استفاده کامل از لینک‌های با پهنای باند بالا، به‌ویژه در شبکه‌های با تأخیر بالاتر، جلوگیری کند. علاوه بر این، مکانیزم اصلی قابلیت اطمینان TCP یعنی ارسال مجدد بسته‌ها، باعث ایجاد تأخیر شده و پهنای باند اضافی مصرف می‌کند که به عملکرد در شبکه‌های پرازدحام یا دارای اتلاف آسیب می‌رساند.
  • چالش‌های مقیاس‌پذیری: اگرچه TCP/IP برای شبکه‌های بزرگ به‌خوبی مقیاس‌پذیر است، اما طراحی آن قابلیت اطمینان عمومی را بر عملکرد خام اولویت می‌دهد. این امر آن را برای سناریوهایی که نیازمند توان عملیاتی فوق‌العاده و حداقل تأخیر هستند، مانند خوشه‌های HPC در مقیاس بزرگ یا استنتاج هوش مصنوعی بی‌درنگ، کمتر مؤثر می‌سازد.

اصول بنیادین دسترسی مستقیم به حافظه از راه دور (RDMA) و مزایای اصلی آن

دسترسی مستقیم به حافظه از راه دور (RDMA) برای غلبه بر محدودیت‌های TCP/IP در محیط‌های با عملکرد بالا توسعه یافت. مزایای اصلی آن از دور زدن CPU و سیستم‌عامل در حین انتقال داده ناشی می‌شود:

  • دسترسی مستقیم به حافظه (کپی صفر): RDMA داده‌ها را مستقیماً از حافظه یک کامپیوتر به حافظه کامپیوتر دیگر منتقل می‌کند، بدون آنکه CPU یا سیستم‌عامل هیچ‌یک از دو سیستم درگیر شوند. این رویکرد «کپی صفر» (zero-copy)، بافرهای داده میانی و تعویض زمینه را که منابع اصلی سربار در شبکه‌های سنتی هستند، حذف می‌کند.
  • کاهش تأخیر و بار CPU: با دور زدن CPU و سیستم‌عامل، RDMA به‌شدت تأخیر ارتباط را کاهش داده و چرخه‌های CPU را آزاد می‌کند. این امر مستقیماً به محاسبات سریع‌تر و پردازش بهتر داده‌ها به‌صورت بی‌درنگ منجر می‌شود. برای مثال، تأخیر برنامه می‌تواند از حدود ۵۰ میکروثانیه با TCP/IP به ۲ تا ۵ میکروثانیه با RDMA کاهش یابد.
  • بهره‌وری بالاتر از پهنای باند: مسیر کارآمد داده و سربار کاهش‌یافته در RDMA به برنامه‌ها اجازه می‌دهد تا از پهنای باند شبکه موجود بهتر استفاده کنند که منجر به توان عملیاتی مؤثر بالاتری می‌شود.
  • پیاده‌سازی‌های کلیدی: فناوری‌های اصلی RDMA که امروزه استفاده می‌شوند عبارت‌اند از InfiniBand، RoCE (نسخه‌های ۱ و ۲) و iWARP.

۳. RoCE v2: پروتکل RDMA روی اترنت همگرا

RoCE v2 گام بزرگی در شبکه‌های با عملکرد بالا است که مزایای RDMA را به اکوسیستم پرکاربرد اترنت گسترش می‌دهد.

الف. اصول معماری

  • تکامل از RoCE v1: RoCE v1 یک پروتکل لایه ۲ (Ethertype 0x8915) بود که آن را به یک دامنه پخش اترنت واحد محدود می‌کرد و مقیاس‌پذیری آن را کاهش می‌داد. RoCE v2 این مشکل را با عمل کردن در لایه اینترنت حل می‌کند. این پروتکل ترافیک RDMA را درون بسته‌های UDP/IP (با استفاده از پورت مقصد UDP شماره ۴۷۹۱) کپسوله می‌کند و آن را در شبکه‌های IP لایه ۳ قابل مسیریابی می‌سازد. این قابلیت مسیریابی یک پیشرفت حیاتی است که به RoCE v2 اجازه می‌دهد در مراکز داده بزرگ و محیط‌های ابری استفاده شود.
  • یکپارچه‌سازی RDMA روی اترنت: RoCE روشی برای انجام RDMA روی یک شبکه اترنت استاندارد فراهم می‌کند. این پروتکل به‌طور مؤثر لایه شبکه InfiniBand را با هدرهای IP و UDP جایگزین می‌کند در حالی که لایه انتقال اصلی InfiniBand و پروتکل RDMA را حفظ می‌کند. این طراحی به RoCE اجازه می‌دهد تا از زیرساخت‌های موجود اترنت بهره ببرد.
  • فرمت بسته: یک بسته RoCE v2 شامل یک هدر IP و یک هدر UDP است که پروتکل انتقال RDMA را کپسوله می‌کنند. اگرچه UDP ترتیب بسته‌ها را تضمین نمی‌کند، استاندارد RoCE v2 ایجاب می‌کند که بسته‌هایی با پورت مبدأ و آدرس مقصد یکسان، نباید ترتیبشان تغییر کند.
  • مصالحه «بهترینِ هر دو جهان»: طراحی RoCE v2 یک مصالحه راهبردی است که هدف آن ارائه عملکرد بالای RDMA بر روی پلتفرم انعطاف‌پذیر، مقرون‌به‌صرفه و فراگیر اترنت است. در حالی که این رویکرد سازگاری گسترده‌ای را ارائه می‌دهد، یک چالش کلیدی ایجاد می‌کند: تضمین عملکرد بدون اتلاف مورد نیاز RDMA روی یک شبکه اترنت که ذاتاً دارای اتلاف است.

ب. پروفایل عملکرد

  • تأخیر: آداپتورهای کانال میزبان (HCA) RoCE می‌توانند به تأخیرهای بسیار پایینی، در حد ۱.۳ میکروثانیه، دست یابند. در سطح برنامه، RoCE تأخیر را به حدود ۵ میکروثانیه کاهش می‌دهد که پیشرفت بزرگی نسبت به تأخیر ۵۰ میکروثانیه‌ای معمول در TCP/IP است. اگرچه InfiniBand تأخیر ذاتی کمی پایین‌تری دارد، عملکرد RoCE برای برنامه‌های بی‌درنگ عالی است.
  • پهنای باند: RoCE v2 از پهنای باند بالا، با سرعت‌های تا ۴۰۰ گیگابیت بر ثانیه در هر پورت، پشتیبانی می‌کند.
  • تخلیه بار CPU: مانند سایر پروتکل‌های RDMA، RoCE برای انتقال داده‌ها CPU را دور می‌زند. این تخلیه بار، منابع ارزشمند CPU را به جای پردازش شبکه، برای وظایف محاسباتی سنگین آزاد می‌کند.
  • عملکرد بدون اتلاف: برای تطابق با عملکرد InfiniBand، RoCE به یک شبکه اترنت بدون اتلاف وابسته است. این امر معمولاً با پیاده‌سازی ویژگی‌های پل‌زنی مرکز داده (DCB)، به‌ویژه کنترل جریان اولویت‌بندی‌شده (PFC) و اعلان صریح ازدحام (ECN) به دست می‌آید.

ج. زیرساخت و مدیریت

  • نیازمندی‌های سخت‌افزاری/نرم‌افزاری: RoCE با سخت‌افزارهای استاندارد اترنت مانند سوئیچ‌ها و کابل‌ها کار می‌کند و به سازمان‌ها اجازه می‌دهد از زیرساخت‌های موجود خود استفاده کنند. با این حال، به آداپتورهای کانال میزبان (HCA) با قابلیت RoCE در نقاط پایانی نیاز دارد. پشتیبانی نرم‌افزاری آن بالغ است و پیاده‌سازی‌هایی در Mellanox OFED 2.3+ داشته و در هسته لینوکس نسخه ۴.۵+ ادغام شده است.
  • پیکربندی شبکه بدون اتلاف: اگرچه RoCE از اترنت استاندارد استفاده می‌کند، ایجاد یک شبکه DCB بدون اتلاف می‌تواند پیچیده‌تر از راه‌اندازی یک شبکه InfiniBand باشد. هر جزء، از نقاط پایانی تا سوئیچ‌ها، باید با دقت پیکربندی شود. این شامل راه‌اندازی کنترل جریان اولویت‌بندی‌شده (PFC)، انتخاب انتقال پیشرفته (ETS) و مکانیزم‌های اعلان ازدحام است. برای کار در شبکه‌های لایه ۳، این ویژگی‌های بدون اتلاف باید در سراسر روترها حفظ شوند، که اغلب با نگاشت تنظیمات اولویت لایه ۲ به تنظیمات کیفیت خدمات (QoS) DSCP در لایه ۳ انجام می‌شود.
  • ملاحظات مدیریتی: RoCE را می‌توان با ابزارهای استاندارد اترنت مدیریت کرد. با این حال، تضمین عملکرد مداوم بدون اتلاف و مدیریت ازدحام در پیاده‌سازی‌های بزرگ RoCE v2 می‌تواند چالش‌برانگیز باشد و به تخصص ویژه نیاز دارد.
  • هزینه پنهان «مقرون‌به‌صرفه بودن»: RoCE اغلب «مقرون‌به‌صرفه» نامیده می‌شود زیرا می‌تواند از زیرساخت‌های موجود اترنت استفاده کند، اما این یک ساده‌سازی بیش از حد است. دستیابی به عملکردی شبیه به InfiniBand نیازمند یک شبکه اترنت بدون اتلاف با پیکربندی بی‌نقص است. پیچیدگی راه‌اندازی ویژگی‌های پل‌زنی مرکز داده (DCB) مانند PFC و ECN می‌تواند بسیار بیشتر از پیکربندی یک شبکه InfiniBand باشد. این پیچیدگی منجر به هزینه‌های عملیاتی بالاتر برای طراحی، عیب‌یابی و مدیریت شبکه می‌شود و ممکن است به سوئیچ‌های اترنت گران‌تری نیاز داشته باشد. در نتیجه، صرفه‌جویی اولیه در سخت‌افزار RoCE ممکن است با این هزینه‌های عملیاتی بالاتر خنثی شود. یک تحلیل کامل هزینه کل مالکیت (TCO) برای مقایسه دقیق ضروری است.

د. کاربردهای کلیدی

RoCE v2 یک راه‌حل عالی برای بسیاری از برنامه‌های مراکز داده و سازمانی است. این پروتکل به‌ویژه برای محیط‌هایی که به تأخیر بسیار کم و توان عملیاتی بالا نیاز دارند، مانند بارهای کاری هوش مصنوعی، معاملات با فرکانس بالا و تحلیل‌های بی‌درنگ، مناسب است. همچنین عملکرد برنامه‌هایی را که به‌شدت به پایگاه‌های داده یا ورودی/خروجی فایل وابسته هستند، بهبود می‌بخشد. علاوه بر این، RoCE v2 با فعال کردن تکثیر سریع و کارآمد داده‌ها، به تداوم کسب‌وکار و بازیابی از فاجعه کمک می‌کند. استفاده گسترده از آن در خوشه‌های آموزش هوش مصنوعی، اهمیت آن را در محاسبات مدرن برجسته می‌کند.

۴. InfiniBand: ساختار تخصصی با عملکرد بالا

InfiniBand یک اتصال داخلی با عملکرد بالا در سطح اول است که از ابتدا برای ارائه سرعت بی‌نظیر، حداقل تأخیر و قابلیت اطمینان بالا برای محیط‌های محاسباتی سنگین طراحی شده است.

الف. اصول معماری

  • RDMA ذاتی: InfiniBand با RDMA یکپارچه‌شده در کل پشته پروتکل خود، از لایه فیزیکی به بالا، ساخته شده است. این طراحی از پایه تضمین می‌کند که عملیات RDMA بسیار کارآمد بوده و کانال‌های داده مستقیم و محافظت‌شده بین گره‌ها را بدون دخالت CPU ایجاد می‌کند.
  • توپولوژی ساختار سوئیچ‌شده: InfiniBand از یک توپولوژی ساختار سوئیچ‌شده برای اتصالات نقطه به نقطه مستقیم بین دستگاه‌ها استفاده می‌کند. این معماری شامل آداپتورهای کانال میزبان (HCA) روی پردازنده‌ها و آداپتورهای کانال هدف (TCA) روی دستگاه‌های جانبی است که ارتباط کارآمد را امکان‌پذیر می‌سازد.
  • کنترل جریان مبتنی بر اعتبار: یکی از ویژگی‌های اصلی InfiniBand، کنترل جریان مبتنی بر اعتبار آن است. این الگوریتم در سطح سخت‌افزار، ارتباط بدون اتلاف را تضمین می‌کند، زیرا اطمینان می‌دهد که فرستنده تنها در صورتی داده ارسال می‌کند که گیرنده فضای بافر کافی (اعتبار) برای پذیرش آن را داشته باشد. این قابلیت اطمینان ذاتی از از دست رفتن بسته‌ها جلوگیری کرده و InfiniBand را از فناوری‌هایی که برای بدون اتلاف بودن به پیکربندی‌های لایه‌های بالاتر نیاز دارند، متمایز می‌کند.
  • استانداردهای اختصاصی: InfiniBand از استانداردهای اختصاصی تعریف‌شده توسط انجمن تجاری InfiniBand (IBTA) که در سال ۱۹۹۹ تأسیس شد، پیروی می‌کند. اکوسیستم آن به‌شدت تحت سلطه NVIDIA (از طریق خرید Mellanox)، تولیدکننده پیشرو آداپتورها و سوئیچ‌های InfiniBand، قرار دارد.

ب. پروفایل عملکرد

  • تأخیر بسیار پایین: InfiniBand به‌طور مداوم پایین‌ترین تأخیر را ارائه می‌دهد. تأخیر آداپتورها می‌تواند به ۰.۵ میکروثانیه برسد و تأخیر بین پورت‌های سوئیچ حدود ۱۰۰ نانوثانیه است که به‌طور قابل‌توجهی کمتر از ۲۳۰ نانوثانیه سوئیچ‌های اترنت مشابه است. در سطح برنامه، InfiniBand می‌تواند به تأخیرهایی تا ۲ میکروثانیه دست یابد، در مقایسه با ۵۰ میکروثانیه در TCP/IP.
  • قابلیت‌های توان عملیاتی بالا: InfiniBand از نرخ‌های داده بسیار بالا پشتیبانی می‌کند. نسخه‌های مدرن مانند HDR و NDR به ترتیب تا ۲۰۰ و ۴۰۰ گیگابیت بر ثانیه در هر خط ارائه می‌دهند. لینک‌های تجمیع‌شده می‌توانند به توان عملیاتی بالاتری دست یابند و به ۸۰۰ گیگابیت بر ثانیه (NDR) و حتی ۱.۶ ترابیت بر ثانیه (XDR) برسند.
  • کارایی CPU: یکی از نقاط قوت کلیدی InfiniBand، توانایی آن در ارائه تأخیر بسیار پایین و پهنای باند فوق‌العاده بالا با تقریباً هیچ استفاده‌ای از CPU است. این تخلیه پردازش شبکه یک مزیت حیاتی برای بارهای کاری سنگین محاسباتی است.
  • عملکرد از طریق طراحی در مقابل عملکرد از طریق پیکربندی: InfiniBand و RoCE تفاوت اساسی در رویکرد خود دارند. InfiniBand از ابتدا برای RDMA طراحی شده است و لایه‌های فیزیکی و انتقال آن برای قابلیت اطمینان در سطح سخت‌افزار مهندسی شده‌اند، از جمله یک الگوریتم مبتنی بر اعتبار ذاتی برای ارتباط بدون اتلاف. در مقابل، RoCE روی اترنت استاندارد اجرا می‌شود و برای ایجاد یک شبکه بدون اتلاف، به پیکربندی ویژگی‌هایی مانند کنترل جریان اولویت‌بندی‌شده (PFC) و اعلان صریح ازدحام (ECN) وابسته است. این بدان معناست که InfiniBand عملکرد بالای تضمین‌شده را به‌صورت آماده ارائه می‌دهد، در حالی که عملکرد RoCE به کیفیت پیکربندی اترنت زیربنایی بستگی دارد.

ج. زیرساخت و مدیریت

  • سخت‌افزار اختصاصی: InfiniBand به سخت‌افزار تخصصی، شامل آداپتورهای کانال میزبان (HCA)، سوئیچ‌ها، روترها و کابل‌های اختصاصی نیاز دارد. این امر معمولاً منجر به سرمایه‌گذاری اولیه بالاتری در مقایسه با راه‌حل‌های مبتنی بر اترنت می‌شود.
  • مدیریت متمرکز: شبکه‌های InfiniBand توسط یک مدیر زیرشبکه (SM) مرکزی مدیریت می‌شوند که جداول ارسال را محاسبه و توزیع کرده و پیکربندی‌هایی مانند پارتیشن‌ها و کیفیت خدمات (QoS) را مدیریت می‌کند. این رویکرد متمرکز می‌تواند مدیریت را در خوشه‌های بزرگ پس از راه‌اندازی اولیه ساده کند.
  • تخصص ویژه: استقرار و نگهداری شبکه‌های InfiniBand معمولاً به دانش تخصصی نیاز دارد که می‌تواند هزینه‌های عملیاتی را افزایش داده و منحنی یادگیری تندتری برای کارکنان IT ایجاد کند.
  • اکوسیستم: اکوسیستم InfiniBand بالغ است اما تحت سلطه NVIDIA/Mellanox قرار دارد.

د. کاربردهای کلیدی

InfiniBand استاندارد صنعتی برای محیط‌های رایانش با عملکرد بالا (HPC) است و سریع‌ترین رشد را در میان اتصالات داخلی برای این برنامه‌ها دارد. این فناوری اصلی توصیه‌شده توسط IBTA است. تأخیر بسیار پایین و پهنای باند بالای آن برای بارهای کاری سنگین مانند آموزش مدل‌های بزرگ هوش مصنوعی/یادگیری ماشین، تحلیل کلان‌داده‌ها و عملیات پایگاه داده عظیم ضروری است. همچنین برای شبیه‌سازی‌های بزرگ (مانند پیش‌بینی آب و هوا) و خدمات مالی با فرکانس بالا، که در آن سرعت و یکپارچگی داده حیاتی است، اهمیت دارد. تا ژوئن ۲۰۲۲، ۶۲ درصد از ۱۰۰ ابرکامپیوتر برتر جهان از InfiniBand استفاده می‌کردند.

۵. iWARP: پروتکل RDMA روی TCP/IP استاندارد

iWARP (Internet Wide Area RDMA Protocol) روش دیگری برای پیاده‌سازی RDMA است که به دلیل استفاده از مجموعه پروتکل استاندارد TCP/IP قابل‌توجه است.

الف. اصول معماری

  • RDMA روی TCP/IP: iWARP پروتکلی است که RDMA را روی شبکه‌های IP استاندارد پیاده‌سازی می‌کند. برخلاف RoCE که از UDP استفاده می‌کند، iWARP بر روی پروتکل‌های انتقال قابل‌اطمینان مانند TCP و SCTP ساخته شده است.
  • اجزای کلیدی: عملکرد iWARP به چندین جزء وابسته است. پروتکل جایگذاری مستقیم داده (DDP) انتقال بدون کپی را با قرار دادن مستقیم داده‌ها در حافظه برنامه امکان‌پذیر می‌سازد. پروتکل دسترسی مستقیم به حافظه از راه دور (RDMAP) خدمات مربوط به عملیات خواندن و نوشتن RDMA را فراهم می‌کند. یک لایه تطبیق خاص، یعنی فریم‌بندی هم‌تراز با PDU نشانگر (MPA)، برای فعال کردن DDP روی TCP مورد نیاز است.
  • قابلیت اطمینان: یکی از ویژگی‌های منحصربه‌فرد iWARP این است که قابلیت اطمینان آن توسط پروتکل TCP زیربنایی تأمین می‌شود. این با RoCE v2 متفاوت است که از UDP استفاده می‌کند و برای قابلیت اطمینان به مکانیزم‌های خارجی مانند پل‌زنی مرکز داده (DCB) نیاز دارد. در نتیجه، iWARP فقط از ارتباطات متصل و قابل‌اطمینان پشتیبانی می‌کند.

ب. پروفایل عملکرد

  • تأخیر و توان عملیاتی مقایسه‌ای: اگرچه iWARP تأخیر کمتری نسبت به TCP/IP سنتی دارد، عملکرد آن عموماً بدتر از RoCE است. در سال ۲۰۱۱، کمترین تأخیر HCA در iWARP ۳ میکروثانیه بود، در حالی که HCA‌های RoCE به ۱.۳ میکروثانیه می‌رسیدند. بنچمارک‌ها به‌طور مداوم نشان می‌دهند که RoCE پیام‌ها را بسیار سریع‌تر از iWARP تحویل می‌دهد، با توان عملیاتی بیش از ۲ برابر در ۴۰ گیگابیت اترنت و ۵ برابر در ۱۰ گیگابیت اترنت.
  • تخلیه بار CPU: مانند سایر پروتکل‌های RDMA، iWARP با فعال کردن انتقال مستقیم حافظه، بار CPU را به حداقل می‌رساند. این پروتکل می‌تواند از موتورهای تخلیه TCP (TOE) با سخت‌افزار RDMA برای دستیابی به نتایج بدون کپی و کاهش بیشتر درگیری CPU استفاده کند.

ج. زیرساخت و مدیریت

  • سازگاری با اترنت استاندارد: یکی از مزایای بزرگ iWARP، توانایی آن برای اجرا روی زیرساخت استاندارد اترنت با حداقل تغییرات در شبکه موجود است. این به سازمان‌ها اجازه می‌دهد تا از سرمایه‌گذاری‌های فعلی خود بهره ببرند.
  • نیازمندی‌های سخت‌افزاری: علی‌رغم سازگاری با سوئیچ‌های استاندارد اترنت، iWARP همچنان به کارت‌های شبکه با قابلیت iWARP در نقاط پایانی نیاز دارد.
  • جنبه‌های یکپارچه‌سازی: iWARP در سیستم‌عامل‌های اصلی مانند Microsoft Windows Server و هسته‌های مدرن لینوکس ادغام شده است. این امر از برنامه‌هایی مانند SMB Direct، iSCSI Extensions for RDMA (iSER) و Network File System over RDMA (NFS over RDMA) پشتیبانی می‌کند.
  • چالش‌های مدیریتی: مدیریت ترافیک iWARP می‌تواند دشوار باشد. این پروتکل فضای پورت TCP را به اشتراک می‌گذارد که مدیریت جریان را پیچیده کرده و شناسایی ترافیک RDMA را سخت می‌کند. به‌طور کلی، مدیریت iWARP دشوارتر از RoCE در نظر گرفته می‌شود.

د. اهمیت در بازار

  • پذیرش محدود: iWARP در مقایسه با InfiniBand و RoCE v2، یک پیاده‌سازی RDMA «غیرمعمول» یا «کمتر استفاده‌شده» است. راه‌حل‌های آن به دلیل چالش‌های پیاده‌سازی و استقرار، «موفقیت محدودی» داشته‌اند.
  • پارادوکس اتکا به TCP: انتخاب طراحی iWARP برای لایه‌بندی RDMA روی TCP، قابلیت اطمینان و سازگاری داخلی را فراهم می‌کند، اما به‌طور متناقض، مانع از دستیابی کامل آن به مزایای اصلی RDMA می‌شود. سربار ذاتی پروتکل TCP، حتی با تخلیه سخت‌افزاری، به نظر می‌رسد iWARP را از رسیدن به تأخیر بسیار پایین و توان عملیاتی بالای InfiniBand یا RoCE باز می‌دارد. این بده‌بستان عملکردی منجر به پذیرش محدود آن در بازار شده است.

۶. تحلیل مقایسه‌ای: RoCE v2 در مقابل InfiniBand، iWARP و اترنت استاندارد

مقایسه دقیق معیارهای عملکردی، زیرساختی و عملیاتی، کلید انتخاب اتصال داخلی با عملکرد بالا است.

الف. بنچمارک‌های عملکرد

عملکرد این اتصالات داخلی، به‌ویژه در تأخیر، پهنای باند و استفاده از CPU، تفاوت زیادی دارد.

  • تأخیر:
    • InfiniBand: پایین‌ترین تأخیر را ارائه می‌دهد. تأخیر بین پورت‌های سوئیچ حدود ۱۰۰ نانوثانیه است، در حالی که تأخیر آداپتور به ۰.۵ تا ۱.۳ میکروثانیه می‌رسد. تأخیر در سطح برنامه می‌تواند تا ۲ میکروثانیه پایین باشد.
    • RoCE v2: تأخیر بسیار پایینی را فراهم می‌کند. تأخیر سوئیچ اترنت حدود ۲۳۰ نانوثانیه است، در حالی که تأخیر HCA می‌تواند تا ۱.۳ میکروثانیه پایین باشد. تأخیر در سطح برنامه معمولاً حدود ۵ میکروثانیه است.
    • iWARP: تأخیر بالاتری نسبت به RoCE دارد، با تأخیر HCA حدود ۳ میکروثانیه (داده‌های سال ۲۰۱۱) گزارش شده است. عملکرد آن به‌طور مداوم بدتر از RoCE است.
    • TCP/IP استاندارد: بالاترین تأخیر را دارد، با تأخیر یک‌طرفه از ۱۰ تا ۵۵ میلی‌ثانیه. تأخیر در سطح برنامه معمولاً حدود ۵۰ میکروثانیه است.
  • پهنای باند:
    • InfiniBand: از پهنای باند بسیار بالا پشتیبانی می‌کند. نسخه‌های مدرن مانند NDR تا ۴۰۰ گیگابیت بر ثانیه در هر پورت ارائه می‌دهند و XDR به ۸۰۰ گیگابیت بر ثانیه می‌رسد. پیش‌بینی می‌شود GDR آینده به ۱.۶ ترابیت بر ثانیه برسد.
    • RoCE v2: قادر به پهنای باند بالا بوده و تا ۴۰۰ گیگابیت بر ثانیه در هر پورت پشتیبانی می‌کند.
    • iWARP: عموماً توان عملیاتی کمتری نسبت به RoCE دارد.
    • TCP/IP استاندارد: توان عملیاتی اغلب توسط سربار پروتکل و ارسال‌های مجدد محدود می‌شود، که استفاده کارآمد از لینک‌های با پهنای باند بالا را دشوار می‌کند.
  • تخلیه بار CPU:
    • InfiniBand، RoCE v2، iWARP: هر سه فناوری RDMA با دور زدن سیستم‌عامل، بار قابل‌توجهی از CPU را تخلیه می‌کنند و منابع CPU را برای کارهای دیگر آزاد می‌سازند.
    • TCP/IP استاندارد: به دلیل درگیری شدید هسته در پردازش داده‌ها، بار بالایی بر CPU تحمیل می‌کند.
  • مکانیزم بدون اتلاف:
    • InfiniBand: دارای کنترل جریان مبتنی بر اعتبار ذاتی در سطح سخت‌افزار است که ارتباط بدون اتلاف را تضمین می‌کند.
    • RoCE v2: به پیکربندی اترنت بدون اتلاف، با استفاده از ویژگی‌های پل‌زنی مرکز داده (DCB) مانند PFC و ECN، متکی است. همچنین دارای یک مکانیزم تحویل قابل‌اطمینان سرتاسری با ارسال مجدد سخت‌افزاری بسته‌ها است.
    • iWARP: از انتقال قابل‌اطمینان داخلی TCP برای یکپارچگی داده‌ها استفاده می‌کند.
    • TCP/IP استاندارد: از مدل تحویل بهترین تلاش (best-effort) استفاده می‌کند و برای اطمینان از قابلیت اطمینان به ارسال‌های مجدد در لایه‌های بالاتر متکی است که باعث افزایش تأخیر می‌شود.

جدول زیر ویژگی‌های عملکرد را خلاصه می‌کند:

ویژگی InfiniBand RoCE v2 iWARP اترنت/TCP/IP استاندارد
فناوری اصلی RDMA ذاتی RDMA روی اترنت (UDP/IP) RDMA روی اترنت (TCP/IP) پروتکل لایه‌ای سنتی
تأخیر معمول برنامه (میکروثانیه) ۲ ۵ >۳ (HCA سال ۲۰۱۱) ۵۰
تأخیر پورت-به-پورت سوئیچ (نانوثانیه) ۱۰۰ ۲۳۰ نامشخص (متکی به اترنت) معمولاً بالاتر، متغیر
حداکثر پهنای باند (گیگابیت بر ثانیه در هر پورت/لینک) ۴۰۰ (NDR)، ۸۰۰ (XDR)، ۱.۶ تریلیون (GDR) ۴۰۰ عموماً کمتر از RoCE +۴۰۰ (اما محدود با سربار پروتکل)
سربار CPU نزدیک به صفر بسیار کم کم بالا
مکانیزم بدون اتلاف کنترل جریان مبتنی بر اعتبار ذاتی نیازمند اترنت بدون اتلاف (PFC, ECN) انتقال قابل‌اطمینان TCP بهترین تلاش، متکی به ارسال مجدد
قابلیت مسیریابی (L2/L3) L3 (از طریق مدیر زیرشبکه) L3 (RoCE قابل مسیریابی) L3 L3 (مسیریابی IP استاندارد)

ب. زیرساخت و اکوسیستم

  • وابستگی‌های سخت‌افزاری:
    • InfiniBand: به مجموعه‌ای کامل از سخت‌افزارهای تخصصی، از جمله HCA‌های InfiniBand، سوئیچ‌ها و کابل‌های اختصاصی نیاز دارد.
    • RoCE v2: به HCA‌های با قابلیت RoCE نیاز دارد اما روی سوئیچ‌ها و کابل‌های استاندارد اترنت کار می‌کند و امکان یکپارچه‌سازی با شبکه‌های موجود را فراهم می‌آورد.
    • iWARP: به کارت‌های شبکه با قابلیت iWARP نیاز دارد اما می‌تواند از سوئیچ‌های استاندارد اترنت استفاده کند.
    • اترنت استاندارد: از کارت‌های شبکه و سوئیچ‌های اترنت کالایی و در دسترس استفاده می‌کند.
  • وابستگی به فروشنده (Vendor Lock-in):
    • InfiniBand: اکوسیستم آن محدود و تحت سلطه Mellanox (NVIDIA) است که می‌تواند نگرانی‌هایی در مورد وابستگی به فروشنده ایجاد کند.
    • RoCE v2: از یک اکوسیستم بزرگ و رقابتی اترنت با فروشندگان متعدد بهره می‌برد. برخی کارت‌های شبکه «RDMA جهانی» را ارائه می‌دهند که از هر دو RoCE و iWARP پشتیبانی می‌کنند و وابستگی را کاهش می‌دهند.
    • iWARP: همچنین از اکوسیستم گسترده اترنت با پشتیبانی فروشندگانی مانند Intel و Chelsio بهره می‌برد.
  • قابلیت همکاری:
    • InfiniBand: به‌عنوان یک استاندارد اختصاصی، تمام اجزا باید از مشخصات IBTA پیروی کنند تا از کارکرد مشترک آنها اطمینان حاصل شود.
    • RoCE v2: پایه‌گذاری آن بر روی اترنت استاندارد، قابلیت همکاری گسترده‌تر و یکپارچه‌سازی آسان‌تر با شبکه‌های موجود را امکان‌پذیر می‌سازد.
    • iWARP: مبتنی بر RFCهای استاندارد IETF برای TCP/IP است که سازگاری بالایی در شبکه‌های IP استاندارد را تضمین می‌کند.

ج. مقرون‌به‌صرفه بودن

  • سرمایه‌گذاری اولیه:
    • InfiniBand: به دلیل سخت‌افزار تخصصی و مجوزدهی، معمولاً به سرمایه‌گذاری اولیه بالاتری نیاز دارد. برای خوشه‌های بزرگ هوش مصنوعی، سوئیچ‌های InfiniBand می‌توانند به‌طور قابل‌توجهی گران‌تر از سوئیچ‌های RoCE باشند.
    • RoCE v2: اغلب گزینه مقرون‌به‌صرفه‌تری است زیرا می‌تواند با اترنت موجود یکپارچه شود و هزینه‌های سخت‌افزار جدید را کاهش دهد. صرفه‌جویی در هزینه سوئیچ‌ها برای خوشه‌های بزرگ هوش مصنوعی می‌تواند قابل‌توجه باشد (۴۹٪ تا ۷۰٪ در مقایسه با InfiniBand).
    • iWARP: از سوئیچ‌های استاندارد اترنت استفاده می‌کند اما به آداپتورهای تخصصی نیاز دارد که همچنان می‌تواند هزینه قابل‌توجهی داشته باشد.
    • اترنت استاندارد: به دلیل سخت‌افزار کالایی آن، عموماً کم‌هزینه‌ترین گزینه است.
  • هزینه کل مالکیت (TCO):
    • InfiniBand: به دلیل سخت‌افزار تخصصی، نگهداری و نیاز به آموزش کارکنان در مورد یک فناوری اختصاصی، تمایل به هزینه کل مالکیت بالاتری دارد.
    • RoCE v2: می‌تواند TCO پایین‌تری داشته باشد، اما این مشروط است. پیچیدگی پیکربندی و نگهداری یک ساختار اترنت بدون اتلاف می‌تواند هزینه‌های عملیاتی را به‌طور قابل‌توجهی افزایش دهد. در حالی که هزینه‌های اولیه سخت‌افزار ممکن است کمتر باشد، دانش تخصصی و تلاش مورد نیاز برای طراحی، عیب‌یابی و نگهداری می‌تواند این صرفه‌جویی‌ها را خنثی کند. بنابراین، «مقرون‌به‌صرفه بودن» هم به قیمت سخت‌افزار و هم به تخصص و بار مدیریتی سازمان بستگی دارد.
    • iWARP: چالش‌های یکپارچه‌سازی و مدیریت می‌تواند بر TCO کلی آن تأثیر بگذارد.

جدول زیر یک نمای کلی مقایسه‌ای از ملاحظات زیرساختی و هزینه‌ای ارائه می‌دهد:

ویژگی InfiniBand RoCE v2 iWARP اترنت/TCP/IP استاندارد
سخت‌افزار شبکه مورد نیاز کارت شبکه، سوئیچ و کابل اختصاصی IB کارت شبکه با قابلیت RoCE، سوئیچ/کابل استاندارد اترنت کارت شبکه با قابلیت iWARP، سوئیچ/کابل استاندارد اترنت کارت شبکه، سوئیچ و کابل استاندارد اترنت
سازگاری شبکه اختصاصی (استاندارد IBTA) اترنت استاندارد (IEEE) اترنت استاندارد (RFCهای IETF) اترنت استاندارد (IEEE)
پیچیدگی مدیریت دشوار (SM تخصصی) دشوار (پیکربندی اترنت بدون اتلاف) دشوارتر از RoCE آسان
هزینه اولیه سخت‌افزار (نسبی) بالا متوسط (استفاده از زیرساخت موجود) متوسط (کارت‌های شبکه تخصصی) کم
هزینه کل مالکیت (نسبی) بالاتر پایین‌تر (مشروط به مدیریت) متغیر (چالش‌های یکپارچه‌سازی) پایین‌ترین
اکوسیستم فروشنده محدود (سلطه NVIDIA/Mellanox) گسترده (فروشندگان متعدد اترنت) گسترده (فروشندگان متعدد اترنت) بسیار گسترده

د. مقیاس‌پذیری و انعطاف‌پذیری

  • قابلیت‌های مسیریابی:
    • InfiniBand: از یک ساختار سوئیچ‌شده با مسیریابی متمرکز توسط مدیر زیرشبکه (SM) استفاده می‌کند. این فناوری بسیار مقیاس‌پذیر است و از خوشه‌هایی با بیش از ۱۰۰,۰۰۰ گره پشتیبانی می‌کند.
    • RoCE v2: کپسوله‌سازی UDP/IP آن اجازه می‌دهد تا روی شبکه‌های IP لایه ۳ مسیریابی شود، که آن را در شبکه‌های بزرگ و محیط‌های ابری مقیاس‌پذیر می‌سازد. همچنین از ECMP برای توازن بار کارآمد پشتیبانی می‌کند.
    • iWARP: روی شبکه‌های IP قابل مسیریابی است.
    • اترنت استاندارد: بسیار مقیاس‌پذیر و انعطاف‌پذیر است، اما ممکن است برای کارایی در سطح HPC به پیکربندی‌های پیشرفته‌ای مانند معماری‌های spine-leaf نیاز داشته باشد.
  • توپولوژی‌های شبکه:
    • InfiniBand: برای خوشه‌های HPC/AI بهینه‌سازی شده است و از توپولوژی‌های با عملکرد بالا مانند Fat Tree، Dragonfly+ و Torus چندبعدی پشتیبانی می‌کند.
    • RoCE v2: مسیریابی مبتنی بر IP آن، آن را با تقریباً هر توپولوژی شبکه‌ای سازگار می‌کند.
    • اترنت استاندارد: از طیف گسترده‌ای از توپولوژی‌ها، از جمله ستاره و مش، پشتیبانی می‌کند.

ه. قابلیت اطمینان و کنترل ازدحام

  • قابلیت اطمینان:
    • InfiniBand: با کنترل جریان مبتنی بر اعتبار خود، قابلیت اطمینان ذاتی و در سطح سخت‌افزار را فراهم می‌کند و ارتباط بدون اتلاف را تضمین می‌نماید.
    • RoCE v2: به یک پیکربندی اترنت بدون اتلاف با استفاده از PFC و ETS متکی است. همچنین شامل یک مکانیزم تحویل قابل‌اطمینان سرتاسری با ارسال مجدد بسته مبتنی بر سخت‌افزار است.
    • iWARP: از قابلیت اطمینان ذاتی TCP بهره می‌برد که تصحیح خطا و ارسال مجدد را فراهم می‌کند.
    • TCP/IP استاندارد: بر قابلیت اطمینان از طریق ارسال مجدد تمرکز دارد که می‌تواند تأخیر قابل‌توجهی اضافه کرده و توان عملیاتی را کاهش دهد.
  • کنترل ازدحام:
    • InfiniBand: مکانیزم‌های کنترل ازدحام خود را بر اساس نشانه‌گذاری FECN/BECN تعریف می‌کند.
    • RoCE v2: یک پروتکل کنترل ازدحام را با استفاده از بیت‌های ECN در IP و بسته‌های اعلان ازدحام (CNP) پیاده‌سازی می‌کند. رویه‌های صنعتی مانند DCQCN نیز استفاده می‌شوند.
    • iWARP: به الگوریتم‌های کنترل ازدحام تثبیت‌شده TCP متکی است.

و. تناسب با برنامه‌ها

  • InfiniBand: انتخاب ایده‌آل برای محیط‌هایی است که به بالاترین توان عملیاتی داده و کمترین تأخیر نیاز دارند. این شامل تحقیقات علمی، مدل‌سازی مالی، خوشه‌های HPC در مقیاس بزرگ و سنگین‌ترین بارهای کاری آموزش هوش مصنوعی/یادگیری ماشین می‌شود.
  • RoCE v2: مورد علاقه سازمان‌هایی است که می‌خواهند از زیرساخت اترنت موجود خود استفاده کنند و در عین حال به عملکرد بالا نیاز دارند. این فناوری برای شبکه‌های ذخیره‌سازی، تحلیل‌های بی‌درنگ و خدمات ابری مناسب است و تعادلی بین عملکرد و هزینه ارائه می‌دهد.
  • iWARP: ممکن است برای کاربردهای خاصی در نظر گرفته شود که در آن زیرساخت TCP/IP موجود یک الزام قطعی است و تأخیر بسیار پایین اولویت اصلی نیست. برای برنامه‌هایی مانند NVMeoF، iSER، SMB Direct و NFS over RDMA یا به عنوان یک گزینه کم‌هزینه برای محیط‌های آزمایشی مناسب است.
  • اترنت/TCP/IP استاندارد: بهترین انتخاب برای شبکه‌های عمومی، مانند شبکه‌های محلی سازمانی و زیرساخت‌های ابری که در آن‌ها عملکرد فوق‌العاده HPC/AI هدف اصلی نیست، باقی می‌ماند.
  • سه‌گانه عملکرد-هزینه-پیچیدگی: این تحلیل یک بده‌بستان اساسی را در انتخاب یک اتصال داخلی آشکار می‌کند: یک سه‌گانه بین عملکرد، هزینه و پیچیدگی. InfiniBand عملکرد برتر و قابلیت اطمینان ذاتی را با هزینه بالاتر ارائه می‌دهد. RoCE v2 عملکردی نزدیک به InfiniBand را روی اترنت فراهم می‌کند و به‌طور بالقوه هزینه‌های سخت‌افزاری را کاهش می‌دهد اما پیچیدگی پیکربندی قابل‌توجهی را اضافه می‌کند. iWARP پروتکل RDMA را روی TCP ارائه می‌دهد اما با عملکرد پایین‌تر. اترنت استاندارد مقرون‌به‌صرفه است اما عملکرد لازم برای بارهای کاری سنگین را ندارد. هیچ راه‌حل «بهترین» واحدی وجود ندارد؛ انتخاب درست نیازمند توازن این سه عامل بر اساس نیازها و قابلیت‌های خاص است.

جدول زیر تناسب هر فناوری با برنامه‌ها را مشخص می‌کند:

فناوری موارد استفاده اصلی مناسب برای کمتر مناسب برای
InfiniBand HPC، آموزش AI/ML، تحلیل کلان‌داده‌ها، خدمات مالی (آربیتراژ) محیط‌هایی که نیازمند کمترین تأخیر مطلق، بالاترین پهنای باند و تضمین‌های ذاتی بدون اتلاف هستند شبکه‌های عمومی سازمانی حساس به هزینه، محیط‌های بدون تخصص IT ویژه
RoCE v2 مراکز داده، خدمات ابری، شبکه‌های ذخیره‌سازی، تحلیل‌های بی‌درنگ، استنتاج AI/ML سازمان‌هایی که از زیرساخت اترنت موجود برای عملکرد بالا استفاده می‌کنند؛ تعادل بین هزینه و عملکرد محیط‌هایی که تضمین‌های ذاتی بدون اتلاف بدون تخصص گسترده در پیکربندی، غیرقابل‌مذاکره است
iWARP NVMeoF، iSER، SMB Direct، NFS over RDMA، محیط‌های تست/توسعه برنامه‌های خاصی که به RDMA روی TCP/IP موجود نیاز دارند، جایی که عملکرد حداکثری حیاتی نیست خوشه‌های بزرگ HPC/AI، برنامه‌های بی‌درنگ حساس به تأخیر
اترنت/TCP/IP استاندارد شبکه‌های عمومی سازمانی، شبکه‌های محلی، اتصال به اینترنت، زیرساخت ابری شبکه‌های عمومی فراگیر، مقرون‌به‌صرفه و انعطاف‌پذیر رایانش با عملکرد بالا، آموزش AI/ML و سایر بارهای کاری حساس به تأخیر و سنگین از نظر CPU

۷. اتصالات داخلی نوظهور با عملکرد بالا و روندهای آینده

چشم‌انداز شبکه‌های با عملکرد بالا به دلیل بارهای کاری سنگین داده‌محور و نیاز به کارایی بیشتر، همواره در حال تغییر است. فراتر از فناوری‌های تثبیت‌شده RDMA، اتصالات داخلی و روندهای جدیدی در حال شکل دادن به آینده مراکز داده هستند.

الف. پیوند اکسپرس محاسباتی (CXL)

CXL یک اتصال داخلی مدرن است که بر روی لایه فیزیکی PCIe ساخته شده و برای سیستم‌های محاسباتی عمومی طراحی شده است. هدف اصلی آن فراهم کردن ارتباط سریع و یکپارچه بین CPU‌ها و شتاب‌دهنده‌هایی مانند GPU‌ها و FPGA‌ها است.

ویژگی‌های کلیدی CXL شامل انتقال داده با سرعت بالا، سازگاری گسترده و اشتراک‌گذاری کارآمد حافظه از طریق هم‌بستگی کَش (Cache Coherency) است. این فناوری از سه نوع دستگاه (برای شتاب‌دهنده‌ها، دستگاه‌های با هم‌بستگی کَش و توسعه‌دهندگان حافظه) و توپولوژی‌های انعطاف‌پذیر پشتیبانی می‌کند. CXL/PCIe Gen5 توان عملیاتی حداکثری ۵۱۲ گیگابیت بر ثانیه با تأخیری در حدود ۵۰۰ نانوثانیه ارائه می‌دهد. در حالی که InfiniBand تأخیر کمتری (حدود ۱۰۰ نانوثانیه) دارد، CXL برای دسترسی به حافظه با تأخیر کم که در آن هم‌بستگی کَش حیاتی است، برتری دارد.

یک تحول بزرگ، ادغام کنسرسیوم‌های Gen-Z و CXL در سال ۲۰۲۲ بود که CXL را به عنوان تنها استاندارد صنعتی برای این دسته از اتصالات داخلی متمرکز بر حافظه قرار داد.

CXL نشان‌دهنده یک تغییر از شبکه‌های سنتی گره‌به‌گره (مانند RoCE و InfiniBand) به سمت هم‌بستگی حافظه و تفکیک منابع است. این بدان معناست که برای برخی بارهای کاری، CXL ممکن است به اتصال داخلی اصلی تبدیل شود و نیاز به ساختارهای شبکه سنتی را تکمیل یا کاهش دهد.

ب. NVLink

NVLink اتصال داخلی اختصاصی با پهنای باند بالا و تأخیر کم NVIDIA است که برای ارتباط مستقیم GPU-به-GPU و GPU-به-CPU در پلتفرم‌های محاسباتی شتاب‌یافته آن مهندسی شده است.

NVLink بخش کلیدی راه‌حل‌های NVIDIA برای هوش مصنوعی و HPC، مانند معماری‌های GB200 و GB300 آن، است. این فناوری برای مقیاس‌بندی آموزش مدل‌های هوش مصنوعی با فراهم کردن انتقال داده بسیار سریع بین GPU‌ها حیاتی است.

NVLink روندی به سمت یکپارچه‌سازی عمودی و عملکرد تخصصی را نشان می‌دهد. ماهیت اختصاصی آن با استانداردهای بازی مانند RoCE یا InfiniBand در تضاد است. این طراحی عملکرد را در پشته سخت‌افزاری یک فروشنده واحد به حداکثر می‌رساند. در حالی که InfiniBand و RoCE شبکه‌های عمومی بین گره‌ها را مدیریت می‌کنند، NVLink ارتباط درون و بین سیستم‌های GPU را بهینه می‌کند و یک معماری اتصال داخلی لایه‌ای ایجاد می‌کند که در آن فناوری‌های مختلف نیازهای متفاوتی را برآورده می‌کنند.

ج. سرعت‌های آینده اترنت

اترنت از ۱۰ مگابیت بر ثانیه به ۴۰۰ گیگابیت بر ثانیه تکامل یافته است و توسعه با استانداردهای 800GbE و 1.6TbE در افق ادامه دارد. این سرعت‌های بالاتر برای برنامه‌های نسل بعدی مانند رایانش کوانتومی، هوش مصنوعی پیشرفته و فناوری‌های فراگیر ضروری خواهند بود.

افزایش مداوم سرعت‌های اترنت مستقیماً به نفع RoCE است. از آنجایی که RoCE بر روی اترنت ساخته شده است، به‌طور خودکار از این پیشرفت‌ها بهره‌مند می‌شود و به آن کمک می‌کند تا با InfiniBand رقابتی باقی بماند. رشد خدمات ابری در حال حاضر استقرار 200GbE و 400GbE را پیش می‌راند و 800GbE و 1.6TbE در راه هستند.

ارتباط مداوم اترنت و RoCE به‌طور تنگاتنگی به هم مرتبط است. با پیشرفت سرعت‌های اترنت، RoCE به یک رقیب قوی‌تر برای مراکز داده با عملکرد بالا تبدیل می‌شود، به‌ویژه برای سازمان‌هایی که می‌خواهند از سرمایه‌گذاری‌های موجود خود در اترنت بهره ببرند و از اکوسیستم‌های اختصاصی اجتناب کنند.

د. رایانش تفکیک‌شده و فوتونیک

  • رایانش تفکیک‌شده: این رویکرد جدید با هدف بهبود کارایی مراکز داده، منابعی مانند محاسبات، ذخیره‌سازی و حافظه را از سرورهای سنتی جدا می‌کند. سپس این منابع در استخرهای انعطاف‌پذیر متصل به شبکه‌های پیشرفته بازآرایی می‌شوند. یک نتیجه کلیدی این است که ارتباطی که زمانی در داخل یک سرور رخ می‌داد، اکنون از شبکه عبور می‌کند و بار را به شدت افزایش داده و تأخیر بسیار کم را حیاتی می‌سازد. این روند نیاز به اتصالات داخلی با عملکرد بالا مانند RoCE و InfiniBand را تقویت کرده و توسعه موارد جدیدی مانند CXL را پیش می‌راند.
  • فوتونیک در شبکه‌های مرکز داده: فوتونیک سیلیکونی اجزای نوری را بر روی تراشه‌های سیلیکونی ادغام می‌کند و اتصالات داخلی نوری با سرعت بالا و توان کم را ممکن می‌سازد. این فناوری نرخ‌های انتقال داده بسیار سریع‌تر (بیش از ۱۰۰ گیگابیت بر ثانیه)، تأخیر کمتر و بهره‌وری انرژی بهتری نسبت به مس سنتی ارائه می‌دهد. این فناوری برای پاسخگویی به تقاضای روزافزون ترافیک در مراکز داده و فعال کردن نسل بعدی اترنت پرسرعت ضروری شده است.

رابطه بین این روندها همزیستی است. معماری‌های تفکیک‌شده به شبکه‌های پیشرفته نیاز دارند که اتصالات داخلی مانند RoCE، InfiniBand و CXL آن را فراهم می‌کنند. به نوبه خود، دستیابی به سرعت‌های لازم برای این اتصالات داخلی، به‌ویژه برای استانداردهای آینده 800GbE و 1.6TbE، به فناوری‌هایی مانند فوتونیک سیلیکونی وابسته خواهد بود.

۸. توصیه‌ها و نتیجه‌گیری

انتخاب یک اتصال داخلی با عملکرد بالا یک تصمیم راهبردی حیاتی است که باید با نیازهای خاص، بودجه، زیرساخت و چشم‌انداز بلندمدت یک سازمان همسو باشد.

  • برای حداکثر عملکرد خام و HPC/AI حیاتی: InfiniBand استاندارد طلایی واضح است. RDMA ذاتی، کنترل جریان مبتنی بر اعتبار و طراحی هدفمند آن، کمترین تأخیر و بالاترین توان عملیاتی را با عملکرد بدون اتلاف تضمین‌شده ارائه می‌دهد. سازمان‌هایی که بودجه و تخصص لازم را دارند باید InfiniBand را برای خوشه‌های مقیاس بزرگ که در آن هر میکروثانیه اهمیت دارد، انتخاب کنند.
  • برای عملکرد بالا با مقرون‌به‌صرفه بودن و یکپارچه‌سازی اترنت: RoCE v2 یک جایگزین قوی و به‌طور فزاینده‌ای محبوب است. این فناوری پیشرفت‌های عملکردی بزرگی را نسبت به TCP/IP ارائه می‌دهد و می‌تواند با استفاده از زیرساخت اترنت موجود، به عملکرد InfiniBand نزدیک شود. این گزینه برای سازمان‌هایی که مراکز داده خود را بدون یک بازسازی کامل ارتقا می‌دهند، ایده‌آل است. با این حال، این انتخاب نیازمند تعهد به پیکربندی و مدیریت دقیق یک ساختار اترنت بدون اتلاف است.
  • برای کاربردهای خاص یا محیط‌های RDMA قدیمی روی TCP: iWARP ممکن است در موارد خاص مناسب باشد، به‌ویژه جایی که استفاده از زیرساخت TCP/IP موجود یک الزام است و عملکرد حداکثری هدف اصلی نیست. با این حال، عملکرد پایین‌تر و پیچیدگی مدیریتی بالاتر، استفاده از آن را در پیاده‌سازی‌های مدرن با عملکرد بالا محدود می‌کند.
  • برای شبکه‌های عمومی: اترنت/TCP/IP استاندارد رایج‌ترین و مقرون‌به‌صرفه‌ترین انتخاب برای محیط‌های بدون نیاز به عملکرد فوق‌العاده باقی می‌ماند. سهولت استفاده و سخت‌افزار کالایی آن، آن را برای شبکه‌های عمومی سازمانی، شبکه‌های محلی و زیرساخت‌های ابری استاندارد عالی می‌سازد.
  • در نظر گرفتن فناوری‌های نوظهور برای آینده‌نگری: سازمان‌ها باید توسعه CXL را برای معماری‌های حافظه‌محور و تفکیک‌شده زیر نظر داشته باشند، زیرا این فناوری با بهینه‌سازی تجمیع منابع، ساختارهای شبکه سنتی را تکمیل می‌کند. به همین ترتیب، NVLink برای بهینه‌سازی ارتباطات در سیستم‌های سنگین GPU انویدیا حیاتی است. این فناوری‌ها نشان‌دهنده تنوع‌بخشی به اتصالات داخلی برای لایه‌های مختلف سلسله‌مراتب محاسباتی هستند. علاوه بر این، توسعه اترنت 800GbE و 1.6TbE، همراه با پیشرفت‌ها در فوتونیک، همچنان RoCE را به یک گزینه قدرتمندتر تبدیل خواهد کرد.

در نتیجه، شبکه‌های با عملکرد بالا پیچیده هستند و توسط تقاضاهای هوش مصنوعی، HPC و تغییر به سمت رایانش تفکیک‌شده هدایت می‌شوند. در حالی که InfiniBand در عملکرد مطلق برای محیط‌های تخصصی پیشرو است، RoCE v2 یک جایگزین قدرتمند و انعطاف‌پذیر ارائه می‌دهد که مزایای RDMA را با فراگیری اترنت پیوند می‌دهد. ظهور CXL و NVLink نشان‌دهنده تنوع راهبردی اتصالات داخلی برای بهینه‌سازی لایه‌های مختلف ارتباطی است. راه‌حل بهینه همیشه یک توازن راهبردی بین الزامات عملکرد، هزینه، زیرساخت موجود و یک چشم‌انداز آینده‌نگر خواهد بود.

دسته‌بندی شده در Hardware

دیدگاهی بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *