I. Tóm tắt cho Ban lãnh đạo
Các trung tâm dữ liệu hiện đại phải hỗ trợ các tác vụ đòi hỏi khắt khe như Điện toán Hiệu năng cao (HPC), Trí tuệ Nhân tạo/Học máy (AI/ML) và phân tích Dữ liệu lớn. Các ứng dụng này yêu cầu độ trễ cực thấp, băng thông cao và mức sử dụng CPU tối thiểu. Các giao thức mạng truyền thống như TCP/IP không thể đáp ứng những nhu cầu này do chi phí hoạt động và độ trễ cao.
Truy cập Bộ nhớ Trực tiếp từ xa (RDMA) là công nghệ chủ chốt cho phép các kết nối hiệu năng cao. RDMA cho phép các máy tính trong mạng truyền dữ liệu trực tiếp giữa bộ nhớ của chúng mà không cần sự tham gia của hệ điều hành hoặc CPU (truyền từ bộ nhớ sang bộ nhớ). Quá trình này giúp giảm đáng kể độ trễ và tải cho CPU.
- InfiniBand là một cấu trúc mạng (fabric) độc quyền, được xây dựng chuyên dụng để đạt hiệu suất cao nhất có thể và hoạt động không mất dữ liệu (lossless) một cách tự nhiên.
- RoCE v2 (RDMA qua Ethernet hội tụ) áp dụng các lợi ích của RDMA trên nền tảng Ethernet tiêu chuẩn, cung cấp một tùy chọn có khả năng định tuyến và hiệu quả hơn về chi phí, nhưng đòi hỏi cấu hình cụ thể để đảm bảo không mất dữ liệu.
- iWARP là một giải pháp RDMA qua Ethernet khác dựa trên TCP, nhưng nhìn chung ít phổ biến hơn và có hiệu suất thấp hơn RoCE v2.
Việc lựa chọn kết nối phù hợp là một quyết định mang tính chiến lược, phụ thuộc vào nhu cầu hiệu suất, ngân sách, cơ sở hạ tầng hiện có và mục tiêu mở rộng. Báo cáo này sẽ phân tích các công nghệ này, so sánh chúng với Ethernet/TCP/IP tiêu chuẩn và khám phá các giải pháp thay thế mới như CXL và NVLink để hỗ trợ cho quyết định quan trọng này.
II. Giới thiệu về Mạng hiệu năng cao và RDMA
Thế giới kỹ thuật số ngày nay chứng kiến sự tăng trưởng theo cấp số nhân của các ứng dụng sử dụng nhiều dữ liệu như Điện toán Hiệu năng cao (HPC), Trí tuệ Nhân tạo/Học máy (AI/ML) và phân tích Dữ liệu lớn. Các tác vụ này phải di chuyển các tập dữ liệu khổng lồ một cách nhanh chóng và hiệu quả giữa các nút tính toán và bộ nhớ lưu trữ. Ví dụ, các ứng dụng AI rất nhạy cảm với tính toàn vẹn của dữ liệu và đòi hỏi mạng không mất dữ liệu (lossless), nơi chỉ một thông điệp bị mất cũng có thể phá hỏng toàn bộ quá trình huấn luyện. Lưu lượng băng thông cao cũng rất cần thiết để các ứng dụng này xử lý dữ liệu một cách hiệu quả.
Hạn chế của Ethernet TCP/IP truyền thống đối với các ứng dụng hiệu năng cao
Mặc dù đáng tin cậy cho các tác vụ mạng thông thường, Ethernet TCP/IP truyền thống có những hạn chế lớn đối với các ứng dụng hiệu năng cao:
- Độ trễ cao và gánh nặng cho CPU: Thiết kế của TCP/IP gửi dữ liệu qua nhiều lớp phần mềm trong nhân hệ điều hành, đòi hỏi sự tham gia đáng kể của CPU. Quá trình này làm tăng thêm độ trễ đáng kể (thường là hàng chục micro giây) và đặt một gánh nặng lớn lên CPU. Đối với các ứng dụng nhạy cảm với độ trễ, đây trở thành một nút thắt cổ chai lớn, vì CPU phải dành thời gian quản lý lưu lượng mạng thay vì chạy ứng dụng. "Gánh nặng CPU" này từ việc chuyển đổi ngữ cảnh và sao chép dữ liệu là lý do chính để áp dụng các công nghệ RDMA, vốn giúp giảm tải xử lý mạng và giải phóng CPU cho các tác vụ ứng dụng.
- Hạn chế về thông lượng: Một số yếu tố hạn chế thông lượng hiệu quả của TCP, bao gồm kích thước cửa sổ truyền, kích thước phân đoạn và mất gói tin. Kích thước cửa sổ TCP tiêu chuẩn (thường giới hạn ở 65.535 byte) có thể ngăn cản việc sử dụng hết các liên kết băng thông cao, đặc biệt trên các mạng có độ trễ cao hơn. Ngoài ra, cơ chế tin cậy cốt lõi của TCP — truyền lại gói tin — gây ra sự chậm trễ và sử dụng thêm băng thông, làm ảnh hưởng đến hiệu suất trong các mạng bị tắc nghẽn hoặc có thất thoát dữ liệu.
- Thách thức về khả năng mở rộng: Mặc dù TCP/IP có khả năng mở rộng tốt cho các mạng lớn, thiết kế của nó ưu tiên độ tin cậy chung hơn là hiệu suất thuần túy. Điều này làm cho nó kém hiệu quả hơn trong các kịch bản đòi hỏi thông lượng cực lớn và độ trễ tối thiểu, chẳng hạn như các cụm HPC quy mô lớn hoặc suy luận AI thời gian thực.
Nguyên tắc cơ bản của Truy cập Bộ nhớ Trực tiếp từ xa (RDMA) và các lợi ích cốt lõi
Truy cập Bộ nhớ Trực tiếp từ xa (RDMA) được phát triển để khắc phục những hạn chế của TCP/IP trong môi trường hiệu năng cao. Các lợi ích chính của nó đến từ việc bỏ qua CPU và hệ điều hành trong quá trình truyền dữ liệu:
- Truy cập bộ nhớ trực tiếp (Zero-Copy): RDMA truyền dữ liệu trực tiếp từ bộ nhớ của một máy tính sang bộ nhớ của máy tính khác mà không cần sự tham gia của CPU hoặc hệ điều hành của cả hai hệ thống. Phương pháp "zero-copy" này loại bỏ các bộ đệm dữ liệu trung gian và chuyển đổi ngữ cảnh, vốn là những nguồn gây ra chi phí hoạt động lớn trong mạng truyền thống.
- Giảm độ trễ và tải cho CPU: Bằng cách bỏ qua CPU và hệ điều hành, RDMA cắt giảm đáng kể độ trễ giao tiếp và giải phóng các chu kỳ CPU. Điều này trực tiếp dẫn đến việc tính toán nhanh hơn và xử lý dữ liệu thời gian thực tốt hơn. Ví dụ, độ trễ ứng dụng có thể giảm từ khoảng 50 micro giây với TCP/IP xuống chỉ còn 2-5 micro giây với RDMA.
- Tận dụng băng thông cao hơn: Đường dẫn dữ liệu hiệu quả và chi phí hoạt động giảm của RDMA cho phép các ứng dụng tận dụng tốt hơn băng thông mạng có sẵn, mang lại thông lượng hiệu quả cao hơn.
- Các triển khai chính: Các công nghệ RDMA chính được sử dụng ngày nay là InfiniBand, RoCE (phiên bản 1 và 2), và iWARP.
III. RoCE v2: RDMA qua Ethernet hội tụ
RoCE v2 là một bước tiến lớn trong lĩnh vực mạng hiệu năng cao, mở rộng các ưu điểm của RDMA sang hệ sinh thái Ethernet được sử dụng rộng rãi.
A. Nguyên tắc kiến trúc
- Sự tiến hóa từ RoCE v1: RoCE v1 là một giao thức Lớp 2 (Ethertype 0x8915), giới hạn nó trong một miền quảng bá Ethernet duy nhất và hạn chế khả năng mở rộng của nó. RoCE v2 giải quyết vấn đề này bằng cách hoạt động ở tầng Internet. Nó đóng gói lưu lượng RDMA trong các gói UDP/IP (sử dụng cổng đích UDP 4791), làm cho nó có thể định tuyến qua các mạng IP Lớp 3. Khả năng định tuyến này là một cải tiến quan trọng, cho phép RoCE v2 được sử dụng trong các trung tâm dữ liệu quy mô lớn và môi trường đám mây.
- Tích hợp RDMA qua Ethernet: RoCE cung cấp một phương pháp để thực hiện RDMA trên một mạng Ethernet tiêu chuẩn. Nó thay thế hiệu quả tầng mạng InfiniBand bằng các tiêu đề IP và UDP trong khi vẫn giữ lại tầng truyền tải InfiniBand cốt lõi và giao thức RDMA. Thiết kế này cho phép RoCE tận dụng cơ sở hạ tầng Ethernet hiện có.
- Định dạng gói tin: Một gói tin RoCE v2 bao gồm một tiêu đề IP và một tiêu đề UDP, đóng gói Giao thức Truyền tải RDMA. Mặc dù UDP không đảm bảo thứ tự gói tin, tiêu chuẩn RoCE v2 yêu cầu rằng các gói tin có cùng cổng nguồn và địa chỉ đích không được sắp xếp lại thứ tự.
- Sự dung hòa "tốt nhất của cả hai thế giới": Thiết kế của RoCE v2 là một sự dung hòa chiến lược, nhằm mục đích mang lại hiệu suất cao của RDMA trên nền tảng Ethernet linh hoạt, hiệu quả về chi phí và phổ biến. Mặc dù phương pháp này mang lại khả năng tương thích rộng rãi, nó tạo ra một thách thức chính: đảm bảo hiệu suất không mất dữ liệu mà RDMA cần trên một mạng Ethernet, vốn có bản chất là mất dữ liệu (lossy).
B. Hồ sơ hiệu suất
- Độ trễ: Bộ điều hợp kênh máy chủ (HCA) RoCE có thể đạt được độ trễ rất thấp, chỉ 1,3 micro giây. Ở cấp độ ứng dụng, RoCE giảm độ trễ xuống còn khoảng 5 micro giây, một cải tiến lớn so với 50 micro giây điển hình của TCP/IP. Mặc dù InfiniBand cung cấp độ trễ gốc thấp hơn một chút, hiệu suất của RoCE là tuyệt vời cho các ứng dụng thời gian thực.
- Băng thông: RoCE v2 hỗ trợ băng thông cao, với tốc độ lên đến 400 Gbps mỗi cổng.
- Giảm tải cho CPU: Giống như các giao thức RDMA khác, RoCE bỏ qua CPU trong việc truyền dữ liệu. Việc giảm tải này giải phóng các tài nguyên CPU quý giá cho các tác vụ tính toán chuyên sâu thay vì xử lý mạng.
- Hiệu suất không mất dữ liệu: Để sánh ngang với hiệu suất của InfiniBand, RoCE phụ thuộc vào một mạng Ethernet không mất dữ liệu. Điều này thường đạt được bằng cách triển khai các tính năng Data Center Bridging (DCB), đặc biệt là Priority Flow Control (PFC) và Explicit Congestion Notification (ECN).
C. Cơ sở hạ tầng và Quản lý
- Yêu cầu phần cứng/phần mềm: RoCE hoạt động với các phần cứng Ethernet tiêu chuẩn như bộ chuyển mạch và cáp, cho phép các tổ chức sử dụng cơ sở hạ tầng hiện có của họ. Tuy nhiên, nó yêu cầu các Bộ điều hợp Kênh Máy chủ (HCA) có khả năng RoCE tại các điểm cuối. Hỗ trợ phần mềm đã trưởng thành, với các triển khai trong Mellanox OFED 2.3+ và được tích hợp vào Linux Kernel v4.5+.
- Cấu hình mạng không mất dữ liệu: Mặc dù RoCE sử dụng Ethernet tiêu chuẩn, việc tạo ra một mạng DCB không mất dữ liệu có thể phức tạp hơn so với việc thiết lập một mạng InfiniBand. Mọi thành phần, từ điểm cuối đến bộ chuyển mạch, đều phải được cấu hình cẩn thận. Điều này bao gồm việc thiết lập Priority Flow Control (PFC), Enhanced Transmission Selection (ETS), và các cơ chế thông báo tắc nghẽn. Để hoạt động trên các mạng Lớp 3, các đặc tính không mất dữ liệu này phải được duy trì qua các bộ định tuyến, thường bằng cách ánh xạ các cài đặt ưu tiên Lớp 2 sang các cài đặt QoS DSCP Lớp 3.
- Lưu ý về quản lý: RoCE có thể được quản lý bằng các công cụ Ethernet tiêu chuẩn. Tuy nhiên, việc đảm bảo hiệu suất không mất dữ liệu nhất quán và quản lý tắc nghẽn trong các triển khai RoCE v2 quy mô lớn có thể là một thách thức và đòi hỏi chuyên môn cao.
- Chi phí ẩn của "Hiệu quả về mặt chi phí": RoCE thường được gọi là "hiệu quả về mặt chi phí" vì nó có thể sử dụng cơ sở hạ tầng Ethernet hiện có, nhưng đây là một sự đơn giản hóa quá mức. Để đạt được hiệu suất tương tự InfiniBand, cần có một mạng Ethernet không mất dữ liệu được cấu hình hoàn hảo. Sự phức tạp của việc thiết lập các tính năng Data Center Bridging (DCB) như PFC và ECN có thể cao hơn nhiều so với việc cấu hình một mạng InfiniBand. Sự phức tạp này dẫn đến chi phí vận hành cao hơn cho việc thiết kế, khắc phục sự cố và quản lý mạng, và có thể yêu cầu các bộ chuyển mạch Ethernet đắt tiền hơn. Do đó, khoản tiết kiệm phần cứng ban đầu từ RoCE có thể bị bù trừ bởi các chi phí vận hành cao hơn này. Một phân tích tổng chi phí sở hữu (TCO) kỹ lưỡng là cần thiết để có một sự so sánh chính xác.
D. Các ứng dụng chính
RoCE v2 là một giải pháp tuyệt vời cho nhiều ứng dụng trung tâm dữ liệu và doanh nghiệp. Nó đặc biệt phù hợp cho các môi trường cần độ trễ cực thấp và thông lượng cao, chẳng hạn như các tác vụ AI, giao dịch tần suất cao và phân tích thời gian thực. Nó cũng cải thiện hiệu suất cho các ứng dụng phụ thuộc nhiều vào cơ sở dữ liệu hoặc I/O tệp. Ngoài ra, RoCE v2 hỗ trợ tính liên tục trong kinh doanh và phục hồi sau thảm họa bằng cách cho phép sao chép dữ liệu nhanh chóng và hiệu quả. Việc sử dụng rộng rãi của nó trong các cụm huấn luyện AI nhấn mạnh tầm quan trọng của nó trong điện toán hiện đại.
IV. InfiniBand: Cấu trúc mạng hiệu năng cao chuyên dụng
InfiniBand là một kết nối hiệu năng cao hàng đầu, được thiết kế ngay từ đầu để cung cấp tốc độ vô song, độ trễ tối thiểu và độ tin cậy cao cho các môi trường điện toán đòi hỏi khắt khe.
A. Nguyên tắc kiến trúc
- RDMA gốc: InfiniBand được xây dựng với RDMA tích hợp trong toàn bộ chồng giao thức của nó, từ tầng vật lý trở lên. Thiết kế từ đầu này đảm bảo rằng các hoạt động RDMA rất hiệu quả, tạo ra các kênh dữ liệu trực tiếp và được bảo vệ giữa các nút mà không cần sự tham gia của CPU.
- Cấu trúc liên kết mạng chuyển mạch (Switched Fabric): InfiniBand sử dụng cấu trúc liên kết mạng chuyển mạch cho các kết nối điểm-điểm trực tiếp giữa các thiết bị. Kiến trúc này bao gồm các Bộ điều hợp Kênh Máy chủ (HCA) trên bộ xử lý và các Bộ điều hợp Kênh Đích (TCA) trên các thiết bị ngoại vi, cho phép giao tiếp hiệu quả.
- Kiểm soát luồng dựa trên tín dụng (Credit-Based Flow Control): Một tính năng cốt lõi của InfiniBand là kiểm soát luồng dựa trên tín dụng. Thuật toán cấp phần cứng này đảm bảo giao tiếp không mất dữ liệu bằng cách đảm bảo người gửi chỉ truyền dữ liệu nếu người nhận có đủ không gian bộ đệm (tín dụng) để chấp nhận nó. Độ tin cậy tự nhiên này ngăn chặn mất gói tin và làm cho InfiniBand khác biệt với các công nghệ cần cấu hình ở tầng cao hơn để không mất dữ liệu.
- Tiêu chuẩn độc quyền: InfiniBand tuân theo các tiêu chuẩn độc quyền do Hiệp hội Thương mại InfiniBand (IBTA), được thành lập năm 1999, xác định. Hệ sinh thái này bị chi phối mạnh mẽ bởi NVIDIA (thông qua việc mua lại Mellanox), một nhà sản xuất hàng đầu về bộ điều hợp và bộ chuyển mạch InfiniBand.
B. Hồ sơ hiệu suất
- Độ trễ cực thấp: InfiniBand luôn cung cấp độ trễ thấp nhất. Độ trễ của bộ điều hợp có thể thấp tới 0,5 micro giây, và độ trễ từ cổng này sang cổng khác của bộ chuyển mạch là khoảng 100 nano giây — thấp hơn đáng kể so với 230 nano giây của các bộ chuyển mạch Ethernet tương đương. Ở cấp độ ứng dụng, InfiniBand có thể đạt được độ trễ thấp tới 2 micro giây, so với 50 micro giây của TCP/IP.
- Khả năng thông lượng cao: InfiniBand hỗ trợ tốc độ dữ liệu cực cao. Các phiên bản hiện đại như HDR và NDR cung cấp lên đến 200 Gbps và 400 Gbps mỗi làn. Các liên kết tổng hợp có thể đạt được thông lượng cao hơn nữa, đạt 800 Gbps (NDR) và thậm chí 1,6 Tbps (XDR).
- Hiệu quả CPU: Một thế mạnh chính của InfiniBand là khả năng cung cấp độ trễ cực thấp và băng thông cực cao mà gần như không sử dụng CPU. Việc giảm tải xử lý mạng này là một lợi ích quan trọng cho các tác vụ nặng về tính toán.
- Hiệu suất do thiết kế và Hiệu suất do cấu hình: InfiniBand và RoCE có một sự khác biệt cơ bản trong cách tiếp cận của chúng. InfiniBand được thiết kế từ đầu cho RDMA, với các tầng vật lý và truyền tải được chế tạo để có độ tin cậy ở cấp phần cứng, bao gồm một thuật toán dựa trên tín dụng tự nhiên để giao tiếp không mất dữ liệu. Ngược lại, RoCE chạy trên Ethernet tiêu chuẩn và dựa vào cấu hình các tính năng như Priority Flow Control (PFC) và Explicit Congestion Notification (ECN) để tạo ra một mạng không mất dữ liệu. Điều này có nghĩa là InfiniBand cung cấp hiệu suất cao được đảm bảo ngay khi xuất xưởng, trong khi hiệu suất của RoCE phụ thuộc vào chất lượng của cấu hình Ethernet bên dưới.
C. Cơ sở hạ tầng và Quản lý
- Phần cứng chuyên dụng: InfiniBand yêu cầu phần cứng chuyên dụng, bao gồm các Bộ điều hợp Kênh Máy chủ (HCA), bộ chuyển mạch, bộ định tuyến và cáp độc quyền. Điều này thường dẫn đến chi phí đầu tư ban đầu cao hơn so với các giải pháp dựa trên Ethernet.
- Quản lý tập trung: Mạng InfiniBand được quản lý bởi một Trình quản lý Mạng con (Subnet Manager - SM) trung tâm, có nhiệm vụ tính toán và phân phối các bảng chuyển tiếp và quản lý các cấu hình như phân vùng và Chất lượng Dịch vụ (QoS). Cách tiếp cận tập trung này có thể đơn giản hóa việc quản lý trong các cụm lớn sau khi thiết lập ban đầu.
- Chuyên môn đặc thù: Việc triển khai và bảo trì mạng InfiniBand thường đòi hỏi kiến thức chuyên môn, điều này có thể làm tăng chi phí vận hành và tạo ra một đường cong học tập dốc hơn cho nhân viên CNTT.
- Hệ sinh thái: Hệ sinh thái InfiniBand đã trưởng thành nhưng bị chi phối bởi NVIDIA/Mellanox.
D. Các ứng dụng chính
InfiniBand là tiêu chuẩn công nghiệp cho môi trường Điện toán Hiệu năng cao (HPC) và là kết nối phát triển nhanh nhất cho các ứng dụng này. Đây là công nghệ chính được IBTA khuyến nghị. Độ trễ cực thấp và băng thông cao của nó là cần thiết cho các tác vụ đòi hỏi khắt khe như huấn luyện mô hình AI/ML quy mô lớn, phân tích dữ liệu lớn và các hoạt động cơ sở dữ liệu khổng lồ. Nó cũng rất quan trọng đối với các mô phỏng lớn (ví dụ: dự báo thời tiết) và các dịch vụ tài chính tần suất cao, nơi tốc độ và tính toàn vẹn của dữ liệu là yếu tố then chốt. Tính đến tháng 6 năm 2022, 62% trong số Top100 siêu máy tính trên thế giới đã sử dụng InfiniBand.
V. iWARP: RDMA qua TCP/IP tiêu chuẩn
iWARP (Internet Wide Area RDMA Protocol) là một phương pháp khác để triển khai RDMA, đáng chú ý vì nó sử dụng bộ giao thức TCP/IP tiêu chuẩn.
A. Nguyên tắc kiến trúc
- RDMA qua TCP/IP: iWARP là một giao thức triển khai RDMA trên các mạng IP tiêu chuẩn. Không giống như RoCE sử dụng UDP, iWARP được xây dựng trên các giao thức truyền tải đáng tin cậy như TCP và SCTP.
- Các thành phần chính: Hoạt động của iWARP dựa trên một số thành phần. Giao thức Đặt dữ liệu trực tiếp (Direct Data Placement Protocol - DDP) cho phép truyền không sao chép bằng cách đặt dữ liệu trực tiếp vào bộ nhớ của ứng dụng. Giao thức Truy cập Bộ nhớ Trực tiếp từ xa (Remote Direct Memory Access Protocol - RDMAP) cung cấp các dịch vụ cho các hoạt động đọc và ghi RDMA. Một lớp thích ứng cụ thể, định khung Marker PDU Aligned (MPA), là cần thiết để cho phép DDP qua TCP.
- Độ tin cậy: Một tính năng độc đáo của iWARP là độ tin cậy của nó được cung cấp bởi giao thức TCP cơ bản. Điều này khác với RoCE v2, vốn sử dụng UDP và yêu cầu các cơ chế bên ngoài như Data Center Bridging (DCB) để đảm bảo độ tin cậy. Do đó, iWARP chỉ hỗ trợ giao tiếp đáng tin cậy, có kết nối.
B. Hồ sơ hiệu suất
- Độ trễ và Thông lượng so sánh: Mặc dù iWARP có độ trễ thấp hơn TCP/IP truyền thống, hiệu suất của nó nhìn chung kém hơn RoCE. Vào năm 2011, độ trễ HCA iWARP thấp nhất là 3 micro giây, trong khi HCA RoCE đạt 1,3 micro giây. Các bài kiểm tra hiệu năng liên tục cho thấy RoCE truyền tin nhắn nhanh hơn nhiều so với iWARP, với thông lượng cao hơn gấp 2 lần ở 40GbE và cao hơn gấp 5 lần ở 10GbE.
- Giảm tải cho CPU: Giống như các giao thức RDMA khác, iWARP giảm thiểu tải cho CPU bằng cách cho phép truyền bộ nhớ trực tiếp. Nó có thể sử dụng TCP Offload Engines (TOE) với phần cứng RDMA để đạt được kết quả không sao chép và giảm thêm sự tham gia của CPU.
C. Cơ sở hạ tầng và Quản lý
- Tương thích với Ethernet tiêu chuẩn: Một lợi ích lớn của iWARP là khả năng chạy trên cơ sở hạ tầng Ethernet tiêu chuẩn với những thay đổi tối thiểu cho mạng hiện có. Điều này cho phép các tổ chức tận dụng các khoản đầu tư hiện tại của họ.
- Yêu cầu phần cứng: Mặc dù tương thích với các bộ chuyển mạch Ethernet tiêu chuẩn, iWARP vẫn yêu cầu card mạng có khả năng iWARP tại các điểm cuối.
- Các khía cạnh tích hợp: iWARP được tích hợp vào các hệ điều hành lớn như Microsoft Windows Server và các nhân Linux hiện đại. Điều này hỗ trợ các ứng dụng như SMB Direct, iSCSI Extensions for RDMA (iSER), và Network File System over RDMA (NFS over RDMA).
- Thách thức quản lý: Việc quản lý lưu lượng iWARP có thể khó khăn. Nó chia sẻ không gian cổng của TCP, điều này làm phức tạp việc quản lý luồng và gây khó khăn trong việc xác định lưu lượng RDMA. Nhìn chung, iWARP được coi là khó quản lý hơn RoCE.
D. Mức độ phù hợp với thị trường
- Mức độ áp dụng hạn chế: iWARP là một triển khai RDMA "không phổ biến" hoặc "ít được sử dụng" so với InfiniBand và RoCE v2. Các giải pháp của nó đã có "thành công hạn chế" do những thách thức trong việc triển khai và cài đặt.
- Nghịch lý của việc phụ thuộc vào TCP: Lựa chọn thiết kế của iWARP là xếp lớp RDMA lên trên TCP cung cấp độ tin cậy và khả năng tương thích sẵn có nhưng, một cách nghịch lý, lại ngăn cản nó đạt được đầy đủ các lợi ích cốt lõi của RDMA. Chi phí hoạt động vốn có của giao thức TCP, ngay cả khi có phần cứng giảm tải, dường như giữ cho iWARP không đạt được độ trễ cực thấp và thông lượng cao như InfiniBand hoặc RoCE. Sự đánh đổi hiệu suất này đã dẫn đến việc nó được thị trường chấp nhận một cách hạn chế.
VI. Phân tích so sánh: RoCE v2 vs. InfiniBand vs. iWARP vs. Ethernet tiêu chuẩn
Một so sánh chi tiết về các chỉ số hiệu suất, cơ sở hạ tầng và vận hành là chìa khóa để lựa chọn kết nối hiệu năng cao phù hợp.
A. Các chỉ số hiệu suất
Hiệu suất của các kết nối này khác nhau rất nhiều, đặc biệt là về độ trễ, băng thông và việc sử dụng CPU.
- Độ trễ:
- InfiniBand: Cung cấp độ trễ thấp nhất. Độ trễ từ cổng này sang cổng khác của bộ chuyển mạch là khoảng 100 nano giây, trong khi độ trễ của bộ điều hợp thấp tới 0,5 đến 1,3 micro giây. Độ trễ ở tầng ứng dụng có thể thấp tới 2 micro giây.
- RoCE v2: Cung cấp độ trễ cực thấp. Độ trễ của bộ chuyển mạch Ethernet là khoảng 230 nano giây, trong khi độ trễ HCA có thể thấp tới 1,3 micro giây. Độ trễ ở tầng ứng dụng thường khoảng 5 micro giây.
- iWARP: Có độ trễ cao hơn RoCE, với độ trễ HCA được báo cáo khoảng 3 micro giây (dữ liệu năm 2011). Nó luôn hoạt động kém hơn RoCE.
- TCP/IP tiêu chuẩn: Có độ trễ cao nhất, với độ trễ một chiều từ 10 đến 55 mili giây. Độ trễ ở tầng ứng dụng thường khoảng 50 micro giây.
- Băng thông:
- InfiniBand: Hỗ trợ băng thông rất cao. Các phiên bản hiện đại như NDR cung cấp tới 400 Gbps mỗi cổng, và XDR đạt tới 800 Gbps. GDR trong tương lai dự kiến sẽ đạt 1,6 Tbps.
- RoCE v2: Có khả năng băng thông cao, hỗ trợ tới 400 Gbps mỗi cổng.
- iWARP: Nhìn chung có thông lượng thấp hơn RoCE.
- TCP/IP tiêu chuẩn: Thông lượng thường bị giới hạn bởi chi phí hoạt động của giao thức và các lần truyền lại, gây khó khăn cho việc sử dụng hiệu quả các liên kết băng thông cao.
- Giảm tải cho CPU:
- InfiniBand, RoCE v2, iWARP: Cả ba công nghệ RDMA đều giảm tải đáng kể công việc của CPU bằng cách bỏ qua hệ điều hành, giải phóng tài nguyên CPU cho các tác vụ khác.
- TCP/IP tiêu chuẩn: Gây ra tải CPU cao vì nhân hệ điều hành tham gia rất nhiều vào việc xử lý dữ liệu.
- Cơ chế không mất dữ liệu:
- InfiniBand: Có tính năng kiểm soát luồng dựa trên tín dụng ở cấp phần cứng, tự nhiên, đảm bảo giao tiếp không mất dữ liệu.
- RoCE v2: Dựa vào cấu hình Ethernet không mất dữ liệu, sử dụng các tính năng Data Center Bridging (DCB) như PFC và ECN. Nó cũng có cơ chế phân phối đáng tin cậy từ đầu đến cuối với việc truyền lại bằng phần cứng.
- iWARP: Sử dụng cơ chế truyền tải đáng tin cậy có sẵn của TCP để đảm bảo tính toàn vẹn dữ liệu.
- TCP/IP tiêu chuẩn: Sử dụng mô hình phân phối nỗ lực tối đa (best-effort), dựa vào việc truyền lại ở các tầng cao hơn để đảm bảo độ tin cậy, điều này làm tăng thêm độ trễ.
Bảng sau tóm tắt các đặc điểm hiệu suất:
| Tính năng | InfiniBand | RoCE v2 | iWARP | Ethernet/TCP/IP tiêu chuẩn |
|---|---|---|---|---|
| Công nghệ cốt lõi | RDMA gốc | RDMA qua Ethernet (UDP/IP) | RDMA qua Ethernet (TCP/IP) | Giao thức phân lớp truyền thống |
| Độ trễ ứng dụng điển hình (µs) | 2 | 5 | >3 (HCA 2011) | 50 |
| Độ trễ từ cổng sang cổng của bộ chuyển mạch (ns) | 100 | 230 | Không áp dụng (dựa vào Ethernet) | Thường cao hơn, biến đổi |
| Băng thông tối đa (Gbps mỗi cổng/liên kết) | 400 (NDR), 800 (XDR), 1.6T (GDR) | 400 | Thường thấp hơn RoCE | 400+ (nhưng bị giới hạn bởi chi phí giao thức) |
| Gánh nặng CPU | Gần như không | Rất thấp | Thấp | Cao |
| Cơ chế không mất dữ liệu | Kiểm soát luồng dựa trên tín dụng tự nhiên | Yêu cầu Ethernet không mất dữ liệu (PFC, ECN) | Cơ chế truyền tải đáng tin cậy của TCP | Nỗ lực tối đa, Dựa vào truyền lại |
| Khả năng định tuyến (L2/L3) | L3 (qua Trình quản lý Mạng con) | L3 (RoCE có thể định tuyến) | L3 | L3 (Định tuyến IP tiêu chuẩn) |
B. Cơ sở hạ tầng và Hệ sinh thái
- Sự phụ thuộc vào phần cứng:
- InfiniBand: Yêu cầu một bộ đầy đủ phần cứng chuyên dụng, bao gồm HCA InfiniBand, bộ chuyển mạch và cáp độc quyền.
- RoCE v2: Yêu cầu HCA có khả năng RoCE nhưng hoạt động trên các bộ chuyển mạch và cáp Ethernet tiêu chuẩn, cho phép tích hợp với các mạng hiện có.
- iWARP: Yêu cầu card mạng có khả năng iWARP nhưng có thể sử dụng các bộ chuyển mạch Ethernet tiêu chuẩn.
- Ethernet tiêu chuẩn: Sử dụng NIC và bộ chuyển mạch Ethernet phổ thông, có sẵn rộng rãi.
- Sự phụ thuộc vào nhà cung cấp (Vendor Lock-in):
- InfiniBand: Hệ sinh thái bị hạn chế và bị chi phối bởi Mellanox (NVIDIA), điều này có thể gây lo ngại về sự phụ thuộc vào nhà cung cấp.
- RoCE v2: Hưởng lợi từ một hệ sinh thái Ethernet lớn và cạnh tranh với nhiều nhà cung cấp. Một số nhà cung cấp cung cấp NIC "RDMA đa năng" hỗ trợ cả RoCE và iWARP, giúp giảm sự phụ thuộc.
- iWARP: Cũng được hưởng lợi từ hệ sinh thái Ethernet rộng lớn, với sự hỗ trợ từ các nhà cung cấp như Intel và Chelsio.
- Khả năng tương tác:
- InfiniBand: Là một tiêu chuẩn độc quyền, tất cả các thành phần phải tuân thủ các thông số kỹ thuật của IBTA để đảm bảo chúng hoạt động cùng nhau.
- RoCE v2: Nền tảng của nó dựa trên Ethernet tiêu chuẩn cho phép khả năng tương tác rộng hơn và tích hợp dễ dàng hơn với các mạng hiện có.
- iWARP: Dựa trên các RFC IETF tiêu chuẩn cho TCP/IP, đảm bảo khả năng tương thích cao trong các mạng IP tiêu chuẩn.
C. Hiệu quả về chi phí
- Chi phí đầu tư ban đầu:
- InfiniBand: Thường yêu cầu chi phí đầu tư ban đầu cao hơn do phần cứng chuyên dụng và giấy phép. Đối với các cụm AI lớn, bộ chuyển mạch InfiniBand có thể đắt hơn đáng kể so với bộ chuyển mạch RoCE.
- RoCE v2: Thường là một lựa chọn hiệu quả hơn về chi phí vì nó có thể tích hợp với Ethernet hiện có, giảm chi phí phần cứng mới. Khoản tiết kiệm trên các bộ chuyển mạch cho các cụm AI lớn có thể rất đáng kể (từ 49% đến 70% so với InfiniBand).
- iWARP: Sử dụng bộ chuyển mạch Ethernet tiêu chuẩn nhưng yêu cầu bộ điều hợp chuyên dụng, vẫn có thể là một chi phí đáng kể.
- Ethernet tiêu chuẩn: Thường là lựa chọn có chi phí thấp nhất do phần cứng phổ thông của nó.
- Tổng chi phí sở hữu (TCO):
- InfiniBand: Có xu hướng có TCO cao hơn do phần cứng chuyên dụng, bảo trì và nhu cầu đào tạo nhân viên về một công nghệ độc quyền.
- RoCE v2: Có thể có TCO thấp hơn, nhưng điều này có điều kiện. Sự phức tạp của việc cấu hình và duy trì một cấu trúc mạng Ethernet không mất dữ liệu có thể làm tăng đáng kể chi phí vận hành. Mặc dù chi phí phần cứng ban đầu có thể thấp hơn, kiến thức chuyên môn và nỗ lực cần thiết cho việc thiết kế, khắc phục sự cố và bảo trì có thể bù đắp những khoản tiết kiệm này. Do đó, "hiệu quả về mặt chi phí" phụ thuộc vào cả giá phần cứng và chuyên môn cũng như gánh nặng quản lý của tổ chức.
- iWARP: Những thách thức về tích hợp và quản lý có thể ảnh hưởng đến TCO tổng thể của nó.
Bảng sau cung cấp một cái nhìn tổng quan so sánh về các yếu tố cơ sở hạ tầng và chi phí:
| Tính năng | InfiniBand | RoCE v2 | iWARP | Ethernet/TCP/IP tiêu chuẩn |
|---|---|---|---|---|
| Phần cứng mạng yêu cầu | NIC IB, Bộ chuyển mạch IB, Cáp IB chuyên dụng | NIC có khả năng RoCE, Bộ chuyển mạch/Cáp Ethernet tiêu chuẩn | NIC có khả năng iWARP, Bộ chuyển mạch/Cáp Ethernet tiêu chuẩn | NIC Ethernet, Bộ chuyển mạch/Cáp Ethernet tiêu chuẩn |
| Tương thích mạng | Độc quyền (Tiêu chuẩn IBTA) | Ethernet tiêu chuẩn (IEEE) | Ethernet tiêu chuẩn (RFC IETF) | Ethernet tiêu chuẩn (IEEE) |
| Độ phức tạp quản lý | Khó (SM chuyên dụng) | Khó (Cấu hình Ethernet không mất dữ liệu) | Khó hơn RoCE | Dễ |
| Chi phí phần cứng ban đầu (Tương đối) | Cao | Vừa phải (Tận dụng hiện có) | Vừa phải (NIC chuyên dụng) | Thấp |
| Tổng chi phí sở hữu (Tương đối) | Cao hơn | Thấp hơn (Phụ thuộc vào quản lý) | Biến đổi (Thách thức tích hợp) | Thấp nhất |
| Hệ sinh thái nhà cung cấp | Hạn chế (NVIDIA/Mellanox chiếm ưu thế) | Rộng (Nhiều nhà cung cấp Ethernet) | Rộng (Nhiều nhà cung cấp Ethernet) | Rất rộng |
D. Khả năng mở rộng và Linh hoạt
- Khả năng định tuyến:
- InfiniBand: Sử dụng một cấu trúc mạng chuyển mạch với việc định tuyến được quản lý tập trung bởi một Trình quản lý Mạng con (SM). Nó có khả năng mở rộng cao, hỗ trợ các cụm với hơn 100.000 nút.
- RoCE v2: Việc đóng gói UDP/IP của nó cho phép nó được định tuyến qua các mạng IP Lớp 3, làm cho nó có khả năng mở rộng trên các mạng lớn và môi trường đám mây. Nó cũng hỗ trợ ECMP để cân bằng tải hiệu quả.
- iWARP: Có thể được định tuyến qua các mạng IP.
- Ethernet tiêu chuẩn: Có khả năng mở rộng và linh hoạt cao, nhưng có thể yêu cầu các cấu hình nâng cao như kiến trúc spine-leaf để đạt hiệu quả cấp HPC.
- Cấu trúc liên kết mạng:
- InfiniBand: Được tối ưu hóa cho các cụm HPC/AI, hỗ trợ các cấu trúc liên kết hiệu năng cao như Fat Tree, Dragonfly+, và Torus đa chiều.
- RoCE v2: Việc định tuyến dựa trên IP của nó làm cho nó có thể thích ứng với hầu hết mọi cấu trúc liên kết mạng.
- Ethernet tiêu chuẩn: Hỗ trợ một loạt các cấu trúc liên kết, bao gồm hình sao và lưới.
E. Độ tin cậy và Kiểm soát tắc nghẽn
- Độ tin cậy:
- InfiniBand: Cung cấp độ tin cậy tự nhiên, ở cấp phần cứng với kiểm soát luồng dựa trên tín dụng, đảm bảo giao tiếp không mất dữ liệu.
- RoCE v2: Dựa vào cấu hình Ethernet không mất dữ liệu sử dụng PFC và ETS. Nó cũng bao gồm một cơ chế phân phối đáng tin cậy từ đầu đến cuối với việc truyền lại gói tin dựa trên phần cứng.
- iWARP: Hưởng lợi từ độ tin cậy vốn có của TCP, cung cấp khả năng sửa lỗi và truyền lại.
- TCP/IP tiêu chuẩn: Tập trung vào độ tin cậy thông qua việc truyền lại, điều này có thể làm tăng đáng kể độ trễ và giảm thông lượng.
- Kiểm soát tắc nghẽn:
- InfiniBand: Định nghĩa các cơ chế kiểm soát tắc nghẽn riêng của mình dựa trên việc đánh dấu FECN/BECN.
- RoCE v2: Triển khai một giao thức kiểm soát tắc nghẽn sử dụng các bit IP ECN và các Gói tin Thông báo Tắc nghẽn (CNP). Các thực tiễn công nghiệp như DCQCN cũng được sử dụng.
- iWARP: Dựa vào các thuật toán kiểm soát tắc nghẽn đã được thiết lập của TCP.
F. Sự phù hợp với ứng dụng
- InfiniBand: Lựa chọn lý tưởng cho các môi trường cần thông lượng dữ liệu cao nhất và độ trễ thấp nhất. Điều này bao gồm nghiên cứu khoa học, mô hình hóa tài chính, các cụm HPC quy mô lớn và các tác vụ huấn luyện AI/ML đòi hỏi khắt khe nhất.
- RoCE v2: Được ưa chuộng bởi các doanh nghiệp muốn sử dụng cơ sở hạ tầng Ethernet hiện có của họ trong khi vẫn cần hiệu suất cao. Nó rất phù hợp cho các mạng lưu trữ, phân tích thời gian thực và các dịch vụ đám mây, cung cấp sự cân bằng giữa hiệu suất và chi phí.
- iWARP: Có thể được xem xét cho các ứng dụng chuyên biệt nơi cơ sở hạ tầng TCP/IP hiện có là một yêu cầu nghiêm ngặt và độ trễ cực thấp không phải là ưu tiên hàng đầu. Nó phù hợp cho các ứng dụng như NVMeoF, iSER, SMB Direct và NFS qua RDMA, hoặc như một lựa chọn chi phí thấp cho môi trường thử nghiệm.
- Ethernet/TCP/IP tiêu chuẩn: Vẫn là lựa chọn tốt nhất cho mạng đa dụng, chẳng hạn như mạng LAN doanh nghiệp và cơ sở hạ tầng đám mây nơi hiệu suất HPC/AI cực cao không phải là mục tiêu chính.
- Bộ ba nan giải Hiệu suất-Chi phí-Độ phức tạp: Phân tích này cho thấy một sự đánh đổi cơ bản khi chọn một kết nối: một bộ ba nan giải giữa hiệu suất, chi phí và độ phức tạp. InfiniBand cung cấp hiệu suất hàng đầu và độ tin cậy tự nhiên nhưng với chi phí cao hơn. RoCE v2 cung cấp hiệu suất gần bằng InfiniBand trên Ethernet, có khả năng giảm chi phí phần cứng nhưng lại tăng thêm độ phức tạp đáng kể trong cấu hình. iWARP cung cấp RDMA qua TCP nhưng với hiệu suất thấp hơn. Ethernet tiêu chuẩn hiệu quả về chi phí nhưng thiếu hiệu suất cho các tác vụ đòi hỏi khắt khe. Không có một giải pháp "tốt nhất" duy nhất; lựa chọn đúng đắn đòi hỏi sự cân bằng giữa ba yếu tố này dựa trên nhu cầu và khả năng cụ thể.
Bảng sau đây phác thảo sự phù hợp của ứng dụng cho mỗi công nghệ:
| Công nghệ | Trường hợp sử dụng chính | Phù hợp nhất cho | Ít phù hợp hơn cho |
|---|---|---|---|
| InfiniBand | HPC, Huấn luyện AI/ML, Phân tích dữ liệu lớn, Dịch vụ tài chính (Kinh doanh chênh lệch giá) | Môi trường đòi hỏi độ trễ thấp nhất tuyệt đối, băng thông cao nhất và đảm bảo không mất dữ liệu tự nhiên | Mạng doanh nghiệp đa dụng nhạy cảm về chi phí, môi trường không có chuyên môn CNTT đặc thù |
| RoCE v2 | Trung tâm dữ liệu, Dịch vụ đám mây, Mạng lưu trữ, Phân tích thời gian thực, Suy luận AI/ML | Các tổ chức tận dụng cơ sở hạ tầng Ethernet hiện có để đạt hiệu suất cao; cân bằng giữa chi phí và hiệu suất | Môi trường nơi việc đảm bảo không mất dữ liệu tự nhiên là không thể thiếu nếu không có chuyên môn cấu hình sâu rộng |
| iWARP | NVMeoF, iSER, SMB Direct, NFS qua RDMA, Môi trường thử nghiệm/phát triển | Các ứng dụng cụ thể yêu cầu RDMA trên TCP/IP hiện có, nơi hiệu suất đỉnh cao không phải là yếu tố quyết định | Các cụm HPC/AI quy mô lớn, các ứng dụng thời gian thực nhạy cảm với độ trễ |
| Ethernet/TCP/IP tiêu chuẩn | Mạng doanh nghiệp đa dụng, LAN, Kết nối Internet, Cơ sở hạ tầng đám mây | Mạng đa dụng phổ biến, hiệu quả về chi phí và linh hoạt | Điện toán hiệu năng cao, huấn luyện AI/ML và các tác vụ khác nhạy cảm với độ trễ, sử dụng nhiều CPU |
VII. Các kết nối hiệu năng cao mới nổi và xu hướng tương lai
Bối cảnh mạng hiệu năng cao luôn thay đổi, được thúc đẩy bởi các tác vụ sử dụng nhiều dữ liệu và nhu cầu về hiệu quả cao hơn. Ngoài các công nghệ RDMA đã được thiết lập, các kết nối và xu hướng mới đang định hình tương lai của các trung tâm dữ liệu.
A. Compute Express Link (CXL)
CXL là một kết nối hiện đại được xây dựng trên tầng vật lý PCIe, được thiết kế cho các hệ thống máy tính nói chung. Mục tiêu chính của nó là cho phép giao tiếp nhanh chóng, liền mạch giữa CPU và các bộ tăng tốc như GPU và FPGA.
Các tính năng chính của CXL bao gồm truyền dữ liệu tốc độ cao, khả năng tương thích rộng rãi và chia sẻ bộ nhớ hiệu quả thông qua Tính nhất quán Bộ nhớ đệm (Cache Coherency). Nó hỗ trợ ba loại thiết bị (cho bộ tăng tốc, thiết bị nhất quán bộ nhớ đệm và bộ mở rộng bộ nhớ) và các cấu trúc liên kết linh hoạt. CXL/PCIe Gen5 cung cấp thông lượng đỉnh 512 Gbps với độ trễ khoảng 500 nano giây. Mặc dù InfiniBand có độ trễ thấp hơn (khoảng 100 nano giây), CXL lại vượt trội hơn trong việc truy cập bộ nhớ có độ trễ thấp, nơi tính nhất quán của bộ nhớ đệm là yếu tố quan trọng.
Một sự phát triển lớn là sự sáp nhập của Hiệp hội Gen-Z và CXL vào năm 2022, điều này định vị CXL là tiêu chuẩn công nghiệp duy nhất cho loại kết nối tập trung vào bộ nhớ này.
CXL đại diện cho một sự chuyển dịch từ mạng truyền thống từ nút này sang nút khác (như RoCE và InfiniBand) sang tính nhất quán của bộ nhớ và phân tách tài nguyên. Điều này có nghĩa là đối với một số tác vụ nhất định, CXL có thể trở thành kết nối chính, bổ sung hoặc giảm nhu cầu về các cấu trúc mạng truyền thống.
B. NVLink
NVLink là kết nối độc quyền của NVIDIA có băng thông cao, độ trễ thấp, được thiết kế để giao tiếp trực tiếp giữa GPU-với-GPU và GPU-với-CPU trong các nền tảng điện toán tăng tốc của hãng.
NVLink là một phần quan trọng trong các giải pháp của NVIDIA cho AI và HPC, chẳng hạn như các kiến trúc GB200 và GB300. Nó rất quan trọng để mở rộng quy mô huấn luyện mô hình AI bằng cách cung cấp khả năng truyền dữ liệu cực nhanh giữa các GPU.
NVLink cho thấy một xu hướng hướng tới tích hợp dọc và hiệu suất chuyên dụng. Bản chất độc quyền của nó trái ngược với các tiêu chuẩn mở như RoCE hoặc InfiniBand. Thiết kế này tối đa hóa hiệu suất trong một chồng phần cứng của một nhà cung cấp duy nhất. Trong khi InfiniBand và RoCE xử lý mạng chung giữa các nút, NVLink tối ưu hóa giao tiếp bên trong và giữa các hệ thống GPU, tạo ra một kiến trúc kết nối phân tầng nơi các công nghệ khác nhau phục vụ các nhu cầu khác nhau.
C. Tốc độ Ethernet trong tương lai
Ethernet đã phát triển từ 10 Mbps lên 400 Gbps, và sự phát triển vẫn tiếp tục với các tiêu chuẩn 800GbE và 1.6TbE đang được hình thành. Các tốc độ nhanh hơn này sẽ rất cần thiết cho các ứng dụng thế hệ tiếp theo như điện toán lượng tử, AI tiên tiến và các công nghệ nhập vai.
Sự gia tăng liên tục về tốc độ Ethernet trực tiếp mang lại lợi ích cho RoCE. Vì RoCE được xây dựng trên nền tảng Ethernet, nó tự động được hưởng lợi từ những tiến bộ này, giúp nó duy trì tính cạnh tranh với InfiniBand. Sự phát triển của các dịch vụ đám mây đã thúc đẩy việc triển khai 200GbE và 400GbE, với 800GbE và 1.6TbE sẽ sớm theo sau.
Sự phù hợp liên tục của Ethernet và RoCE có mối liên hệ chặt chẽ với nhau. Khi tốc độ Ethernet tăng lên, RoCE trở thành một đối thủ cạnh tranh mạnh mẽ hơn cho các trung tâm dữ liệu hiệu năng cao, đặc biệt đối với các tổ chức muốn tận dụng các khoản đầu tư Ethernet hiện có và tránh các hệ sinh thái độc quyền.
D. Điện toán phân tách và Quang tử học
- Điện toán phân tách: Cách tiếp cận mới này nhằm mục đích cải thiện hiệu quả của trung tâm dữ liệu bằng cách tách rời các tài nguyên như tính toán, lưu trữ và bộ nhớ khỏi các máy chủ truyền thống. Các tài nguyên này sau đó được tập hợp lại thành các nhóm linh hoạt được kết nối bằng mạng tiên tiến. Một kết quả quan trọng là giao tiếp từng xảy ra bên trong một máy chủ giờ đây phải đi qua mạng, làm tăng đáng kể tải và khiến độ trễ cực thấp trở nên quan trọng. Xu hướng này củng cố nhu cầu về các kết nối hiệu năng cao như RoCE và InfiniBand và thúc đẩy sự phát triển của các kết nối mới như CXL.
- Quang tử học trong Mạng trung tâm dữ liệu: Quang tử học silicon tích hợp các thành phần quang học vào chip silicon, cho phép các kết nối quang học tốc độ cao, tiêu thụ ít năng lượng. Công nghệ này cung cấp tốc độ truyền dữ liệu nhanh hơn nhiều (hơn 100 Gbps), độ trễ thấp hơn và hiệu quả năng lượng tốt hơn so với cáp đồng truyền thống. Nó đang trở nên cần thiết để đáp ứng nhu cầu lưu lượng ngày càng tăng trong các trung tâm dữ liệu và cho phép thế hệ Ethernet tốc độ cao tiếp theo.
Mối quan hệ giữa các xu hướng này là cộng sinh. Các kiến trúc phân tách đòi hỏi mạng tiên tiến, mà các kết nối như RoCE, InfiniBand và CXL cung cấp. Đổi lại, việc đạt được tốc độ cần thiết cho các kết nối này, đặc biệt là cho các tiêu chuẩn 800GbE và 1.6TbE trong tương lai, sẽ phụ thuộc vào các công nghệ như quang tử học silicon.
VIII. Khuyến nghị và Kết luận
Lựa chọn một kết nối hiệu năng cao là một quyết định chiến lược quan trọng phải phù hợp với nhu cầu cụ thể, ngân sách, cơ sở hạ tầng và tầm nhìn dài hạn của một tổ chức.
- Để có hiệu suất thuần túy tối đa và các tác vụ HPC/AI quan trọng: InfiniBand là tiêu chuẩn vàng rõ ràng. RDMA gốc, kiểm soát luồng dựa trên tín dụng và thiết kế chuyên dụng của nó mang lại độ trễ thấp nhất và thông lượng cao nhất với hiệu suất không mất dữ liệu được đảm bảo. Các tổ chức có ngân sách và chuyên môn nên chọn InfiniBand cho các cụm quy mô lớn, nơi mỗi micro giây đều có giá trị.
- Để có hiệu suất cao với hiệu quả về chi phí và tích hợp Ethernet: RoCE v2 là một giải pháp thay thế mạnh mẽ và ngày càng phổ biến. Nó mang lại những cải tiến hiệu suất lớn so với TCP/IP và có thể tiếp cận hiệu suất của InfiniBand bằng cách sử dụng cơ sở hạ tầng Ethernet hiện có. Nó lý tưởng cho các tổ chức nâng cấp trung tâm dữ liệu của họ mà không cần phải thay đổi hoàn toàn. Tuy nhiên, lựa chọn này đòi hỏi một cam kết trong việc cấu hình và quản lý cẩn thận một cấu trúc mạng Ethernet không mất dữ liệu.
- Đối với các ứng dụng chuyên biệt hoặc các môi trường RDMA qua TCP cũ: iWARP có thể phù hợp trong các trường hợp cụ thể, đặc biệt khi việc sử dụng cơ sở hạ tầng TCP/IP hiện có là bắt buộc và hiệu suất đỉnh cao không phải là mục tiêu chính. Tuy nhiên, hiệu suất thấp hơn và độ phức tạp quản lý cao hơn của nó hạn chế việc sử dụng trong các triển khai hiệu năng cao hiện đại.
- Đối với mạng đa dụng: Ethernet/TCP/IP tiêu chuẩn vẫn là lựa chọn phổ biến và hiệu quả nhất về chi phí cho các môi trường không có yêu cầu hiệu suất khắc nghiệt. Tính dễ sử dụng và phần cứng phổ thông của nó làm cho nó trở nên hoàn hảo cho các mạng doanh nghiệp nói chung, mạng LAN và cơ sở hạ tầng đám mây tiêu chuẩn.
- Xem xét các công nghệ mới nổi để đảm bảo tương lai: Các tổ chức nên theo dõi sự phát triển của CXL cho các kiến trúc tập trung vào bộ nhớ và phân tách, vì nó bổ sung cho các cấu trúc mạng truyền thống bằng cách tối ưu hóa việc gộp tài nguyên. Tương tự, NVLink rất quan trọng để tối ưu hóa giao tiếp trong các hệ thống nặng về GPU của NVIDIA. Các công nghệ này cho thấy sự đa dạng hóa của các kết nối cho các tầng khác nhau của hệ thống phân cấp tính toán. Ngoài ra, sự phát triển của Ethernet 800GbE và 1.6TbE, cùng với những tiến bộ trong quang tử học, sẽ tiếp tục làm cho RoCE trở thành một lựa chọn mạnh mẽ hơn nữa.
Kết luận, mạng hiệu năng cao là một lĩnh vực phức tạp, được thúc đẩy bởi các yêu cầu của AI, HPC và sự chuyển dịch sang điện toán phân tách. Trong khi InfiniBand dẫn đầu về hiệu suất tuyệt đối cho các môi trường chuyên biệt, RoCE v2 cung cấp một giải pháp thay thế mạnh mẽ và linh hoạt, kết nối các lợi ích của RDMA với sự phổ biến của Ethernet. Sự xuất hiện của CXL và NVLink cho thấy một sự đa dạng hóa chiến lược của các kết nối, tối ưu hóa các tầng giao tiếp khác nhau. Giải pháp tối ưu sẽ luôn là sự cân bằng chiến lược giữa các yêu cầu về hiệu suất, chi phí, cơ sở hạ tầng hiện có và một tầm nhìn hướng tới tương lai.




