I. Ringkasan Eksekutif
Pusat data modern harus mendukung beban kerja berat seperti High-Performance Computing (HPC), Kecerdasan Buatan/Machine Learning (AI/ML), dan analitik Big Data. Aplikasi-aplikasi ini memerlukan latensi ultra-rendah, bandwidth tinggi, dan penggunaan CPU yang minimal. Protokol jaringan tradisional seperti TCP/IP tidak dapat memenuhi kebutuhan ini karena overhead dan latensinya yang tinggi.
Remote Direct Memory Access (RDMA) adalah teknologi kunci yang memungkinkan interkoneksi berkinerja tinggi. RDMA memungkinkan komputer yang terhubung dalam jaringan untuk mentransfer data secara langsung antar-memorinya tanpa melibatkan sistem operasi atau CPU (memory-to-memory). Proses ini secara dramatis mengurangi latensi dan beban CPU.
- InfiniBand adalah fabric khusus yang dibuat untuk tujuan tertentu, dirancang untuk kinerja setinggi mungkin dan operasi lossless secara native.
- RoCE v2 (RDMA over Converged Ethernet) menerapkan manfaat RDMA di atas jaringan Ethernet standar, menawarkan opsi yang dapat dirutekan dan lebih hemat biaya, tetapi memerlukan konfigurasi spesifik agar menjadi lossless.
- iWARP adalah solusi RDMA-over-Ethernet lain yang berbasis TCP, tetapi umumnya kurang umum dan menawarkan kinerja lebih rendah dibandingkan RoCE v2.
Memilih interkoneksi yang tepat adalah keputusan strategis yang bergantung pada kebutuhan kinerja, anggaran, infrastruktur yang ada, dan tujuan skalabilitas. Laporan ini menganalisis teknologi-teknologi ini, membandingkannya dengan Ethernet/TCP/IP standar, dan mengeksplorasi alternatif baru seperti CXL dan NVLink untuk membantu memandu keputusan penting ini.
II. Pengenalan Jaringan Berkinerja Tinggi dan RDMA
Dunia digital saat ini ditandai oleh pertumbuhan eksponensial dalam aplikasi padat data seperti High-Performance Computing (HPC), Kecerdasan Buatan/Machine Learning (AI/ML), dan analitik Big Data. Beban kerja ini harus memindahkan dataset berukuran masif dengan cepat dan efisien antara node komputasi dan penyimpanan. Sebagai contoh, aplikasi AI sangat sensitif terhadap integritas data dan memerlukan jaringan lossless, di mana satu pesan yang hilang dapat merusak seluruh proses pelatihan. Lalu lintas ber-bandwidth tinggi juga penting bagi aplikasi ini untuk memproses data secara efisien.
Keterbatasan Ethernet TCP/IP Tradisional untuk Aplikasi Berkinerja Tinggi
Meskipun andal untuk jaringan umum, Ethernet TCP/IP tradisional memiliki keterbatasan besar untuk aplikasi berkinerja tinggi:
- Latensi Tinggi dan Overhead CPU: Desain TCP/IP mengirimkan data melalui beberapa lapisan perangkat lunak di kernel sistem operasi, yang memerlukan keterlibatan CPU secara signifikan. Proses ini menambah latensi yang cukup besar (biasanya puluhan mikrodetik) dan membebani CPU. Untuk aplikasi yang sensitif terhadap latensi, ini menjadi hambatan utama, karena CPU menghabiskan waktunya untuk mengelola lalu lintas jaringan alih-alih menjalankan aplikasi. "Pajak CPU" dari context switching dan penyalinan data ini adalah alasan utama untuk mengadopsi teknologi RDMA, yang melakukan offload pemrosesan jaringan dan membebaskan CPU untuk tugas aplikasi.
- Keterbatasan Throughput: Beberapa faktor membatasi throughput efektif TCP, termasuk ukuran jendela transmisi, ukuran segmen, dan kehilangan paket. Ukuran jendela TCP standar (sering kali dibatasi hingga 65.535 byte) dapat mencegah pemanfaatan penuh tautan ber-bandwidth tinggi, terutama pada jaringan dengan latensi lebih tinggi. Selain itu, mekanisme keandalan inti TCP—transmisi ulang paket—menimbulkan penundaan dan menggunakan bandwidth ekstra, yang merugikan kinerja di jaringan yang padat atau lossy.
- Tantangan Skalabilitas: Meskipun TCP/IP dapat diskalakan dengan baik untuk jaringan besar, desainnya lebih memprioritaskan keandalan umum daripada kinerja mentah. Hal ini membuatnya kurang efektif untuk skenario yang menuntut throughput ekstrem dan latensi minimal, seperti klaster HPC berskala besar atau inferensi AI real-time.
Dasar-Dasar Remote Direct Memory Access (RDMA) dan Manfaat Utamanya
Remote Direct Memory Access (RDMA) dikembangkan untuk mengatasi keterbatasan TCP/IP dalam lingkungan berkinerja tinggi. Manfaat utamanya berasal dari kemampuannya untuk melewati CPU dan sistem operasi selama transfer data:
- Akses Memori Langsung (Zero-Copy): RDMA mentransfer data secara langsung dari memori satu komputer ke komputer lain tanpa melibatkan CPU atau OS kedua sistem. Pendekatan "zero-copy" ini menghilangkan buffer data perantara dan context switch, yang merupakan sumber utama overhead dalam jaringan tradisional.
- Latensi dan Beban CPU yang Lebih Rendah: Dengan melewati CPU dan OS, RDMA secara drastis memangkas latensi komunikasi dan membebaskan siklus CPU. Hal ini secara langsung menghasilkan komputasi yang lebih cepat dan pemrosesan data real-time yang lebih baik. Sebagai contoh, latensi aplikasi dapat turun dari sekitar 50 mikrodetik dengan TCP/IP menjadi serendah 2-5 mikrodetik dengan RDMA.
- Pemanfaatan Bandwidth yang Lebih Tinggi: Jalur data yang efisien dan overhead yang berkurang dari RDMA memungkinkan aplikasi untuk memanfaatkan bandwidth jaringan yang tersedia dengan lebih baik, yang menghasilkan throughput efektif yang lebih tinggi.
- Implementasi Utama: Teknologi RDMA utama yang digunakan saat ini adalah InfiniBand, RoCE (versi 1 dan 2), dan iWARP.
III. RoCE v2: RDMA over Converged Ethernet
RoCE v2 merupakan langkah maju yang besar dalam jaringan berkinerja tinggi, memperluas keunggulan RDMA ke ekosistem Ethernet yang banyak digunakan.
A. Prinsip Arsitektur
- Evolusi dari RoCE v1: RoCE v1 adalah protokol Lapisan 2 (Ethertype 0x8915), yang membatasinya pada satu domain broadcast Ethernet dan membatasi skalabilitasnya. RoCE v2 mengatasi masalah ini dengan beroperasi di lapisan internet. RoCE v2 mengenkapsulasi lalu lintas RDMA dalam paket UDP/IP (menggunakan port tujuan UDP 4791), membuatnya dapat dirutekan melintasi jaringan IP Lapisan 3. Kemampuan routing ini merupakan peningkatan penting, yang memungkinkan RoCE v2 digunakan di pusat data skala besar dan lingkungan cloud.
- Integrasi RDMA over Ethernet: RoCE menyediakan metode untuk melakukan RDMA melalui jaringan Ethernet standar. Ini secara efektif menggantikan lapisan jaringan InfiniBand dengan header IP dan UDP sambil mempertahankan lapisan transport InfiniBand inti dan protokol RDMA. Desain ini memungkinkan RoCE untuk memanfaatkan infrastruktur Ethernet yang ada.
- Format Paket: Paket RoCE v2 mencakup header IP dan header UDP, yang mengenkapsulasi Protokol Transport RDMA. Meskipun UDP tidak menjamin urutan paket, standar RoCE v2 mengharuskan paket dengan port sumber dan alamat tujuan yang sama tidak boleh diurutkan ulang.
- Kompromi "Terbaik dari Dua Dunia": Desain RoCE v2 adalah kompromi strategis, yang bertujuan untuk memberikan kinerja tinggi RDMA di atas platform Ethernet yang fleksibel, hemat biaya, dan ada di mana-mana. Meskipun pendekatan ini menawarkan kompatibilitas yang luas, ia menciptakan tantangan utama: memastikan kinerja lossless yang dibutuhkan RDMA di atas jaringan Ethernet, yang secara inheren bersifat lossy.
B. Profil Kinerja
- Latensi: Host Channel Adapter (HCA) RoCE dapat mencapai latensi yang sangat rendah, serendah 1,3 mikrodetik. Di tingkat aplikasi, RoCE mengurangi latensi menjadi sekitar 5 mikrodetik, sebuah peningkatan besar dibandingkan 50 mikrodetik yang khas pada TCP/IP. Meskipun InfiniBand menawarkan latensi native yang sedikit lebih rendah, kinerja RoCE sangat baik untuk aplikasi real-time.
- Bandwidth: RoCE v2 mendukung bandwidth tinggi, dengan kecepatan hingga 400 Gbps per port.
- CPU Offload: Seperti protokol RDMA lainnya, RoCE melewati CPU untuk transfer data. Offloading ini membebaskan sumber daya CPU yang berharga untuk tugas-tugas komputasi intensif alih-alih pemrosesan jaringan.
- Kinerja Lossless: Untuk menyamai kinerja InfiniBand, RoCE bergantung pada jaringan Ethernet lossless. Hal ini biasanya dicapai dengan mengimplementasikan fitur Data Center Bridging (DCB), terutama Priority Flow Control (PFC) dan Explicit Congestion Notification (ECN).
C. Infrastruktur dan Manajemen
- Persyaratan Perangkat Keras/Lunak: RoCE bekerja dengan perangkat keras Ethernet standar seperti switch dan kabel, memungkinkan organisasi untuk menggunakan infrastruktur yang ada. Namun, RoCE memerlukan Host Channel Adapter (HCA) yang mampu menangani RoCE di titik akhir. Dukungan perangkat lunak sudah matang, dengan implementasi di Mellanox OFED 2.3+ dan terintegrasi ke dalam Kernel Linux v4.5+.
- Konfigurasi Jaringan Lossless: Meskipun RoCE menggunakan Ethernet standar, membuat jaringan DCB lossless bisa lebih kompleks daripada menyiapkan jaringan InfiniBand. Setiap komponen, dari titik akhir hingga switch, harus dikonfigurasi dengan cermat. Ini termasuk menyiapkan Priority Flow Control (PFC), Enhanced Transmission Selection (ETS), dan mekanisme notifikasi kemacetan. Agar dapat bekerja di seluruh jaringan Lapisan 3, karakteristik lossless ini harus dipertahankan di seluruh router, sering kali dengan memetakan pengaturan prioritas Lapisan 2 ke pengaturan QoS DSCP Lapisan 3.
- Pertimbangan Manajemen: RoCE dapat dikelola dengan alat Ethernet standar. Namun, memastikan kinerja lossless yang konsisten dan mengelola kemacetan dalam penerapan RoCE v2 skala besar bisa menjadi tantangan dan memerlukan keahlian khusus.
- Biaya Tersembunyi dari "Efektivitas Biaya": RoCE sering disebut "hemat biaya" karena dapat menggunakan infrastruktur Ethernet yang ada, tetapi ini adalah penyederhanaan yang berlebihan. Mencapai kinerja seperti InfiniBand memerlukan jaringan Ethernet lossless yang dikonfigurasi dengan sempurna. Kompleksitas dalam menyiapkan fitur Data Center Bridging (DCB) seperti PFC dan ECN bisa jauh lebih tinggi daripada mengonfigurasi jaringan InfiniBand. Kompleksitas ini menyebabkan biaya operasional yang lebih tinggi untuk desain jaringan, pemecahan masalah, dan manajemen, dan mungkin memerlukan switch Ethernet yang lebih mahal. Akibatnya, penghematan perangkat keras awal dari RoCE mungkin dibatalkan oleh biaya operasional yang lebih tinggi ini. Analisis total biaya kepemilikan (TCO) yang menyeluruh sangat penting untuk perbandingan yang akurat.
D. Aplikasi Utama
RoCE v2 adalah solusi yang sangat baik untuk banyak aplikasi pusat data dan perusahaan. RoCE v2 sangat cocok untuk lingkungan yang membutuhkan latensi ultra-rendah dan throughput tinggi, seperti beban kerja AI, perdagangan frekuensi tinggi, dan analitik real-time. RoCE v2 juga meningkatkan kinerja untuk aplikasi yang sangat bergantung pada database atau I/O file. Selain itu, RoCE v2 membantu kelangsungan bisnis dan pemulihan bencana dengan memungkinkan replikasi data yang cepat dan efisien. Penggunaannya yang luas di klaster pelatihan AI menyoroti pentingnya dalam komputasi modern.
IV. InfiniBand: Fabric Khusus Berkinerja Tinggi
InfiniBand adalah interkoneksi berkinerja tinggi tingkat atas, yang dirancang sejak awal untuk memberikan kecepatan tak tertandingi, latensi minimal, dan keandalan tinggi untuk lingkungan komputasi yang menuntut.
A. Prinsip Arsitektur
- RDMA Native: InfiniBand dibangun dengan RDMA yang terintegrasi ke dalam seluruh tumpukan protokolnya, dari lapisan fisik ke atas. Desain dari awal ini memastikan bahwa operasi RDMA sangat efisien, menciptakan saluran data yang langsung dan terlindungi antar-node tanpa keterlibatan CPU.
- Topologi Switched Fabric: InfiniBand menggunakan topologi switched fabric untuk koneksi titik-ke-titik langsung antar perangkat. Arsitekturnya mencakup Host Channel Adapter (HCA) pada prosesor dan Target Channel Adapter (TCA) pada periferal, yang memungkinkan komunikasi yang efisien.
- Credit-Based Flow Control: Fitur inti dari InfiniBand adalah credit-based flow control-nya. Algoritme tingkat perangkat keras ini menjamin komunikasi lossless dengan memastikan pengirim hanya mentransmisikan data jika penerima memiliki ruang buffer (kredit) yang cukup untuk menerimanya. Keandalan native ini mencegah kehilangan paket dan membedakan InfiniBand dari teknologi yang memerlukan konfigurasi lapisan yang lebih tinggi agar menjadi lossless.
- Standar Propieter: InfiniBand mengikuti standar propieter yang ditentukan oleh InfiniBand Trade Association (IBTA), yang didirikan pada tahun 1999. Ekosistem ini sangat didominasi oleh NVIDIA (melalui akuisisi Mellanox), produsen terkemuka adaptor dan switch InfiniBand.
B. Profil Kinerja
- Latensi Ultra-Rendah: InfiniBand secara konsisten menawarkan latensi terendah. Latensi adaptor bisa serendah 0,5 mikrodetik, dan latensi switch port-to-port sekitar 100 nanodetik—secara signifikan lebih rendah dari 230 nanodetik pada switch Ethernet yang sebanding. Di lapisan aplikasi, InfiniBand dapat mencapai latensi serendah 2 mikrodetik, dibandingkan dengan 50 mikrodetik pada TCP/IP.
- Kapabilitas Throughput Tinggi: InfiniBand mendukung kecepatan data yang sangat tinggi. Versi modern seperti HDR dan NDR menawarkan hingga 200 Gbps dan 400 Gbps per jalur. Tautan agregat dapat mencapai throughput yang lebih tinggi lagi, mencapai 800 Gbps (NDR) dan bahkan 1,6 Tbps (XDR).
- Efisiensi CPU: Kekuatan utama InfiniBand adalah kemampuannya untuk memberikan latensi ultra-rendah dan bandwidth yang sangat tinggi dengan penggunaan CPU hampir nol. Offloading pemrosesan jaringan ini merupakan manfaat penting untuk beban kerja yang berat secara komputasi.
- Kinerja Berdasarkan Desain vs. Kinerja Berdasarkan Konfigurasi: InfiniBand dan RoCE memiliki perbedaan mendasar dalam pendekatan mereka. InfiniBand dirancang dari awal untuk RDMA, dengan lapisan fisik dan transportnya direkayasa untuk keandalan tingkat perangkat keras, termasuk algoritme berbasis kredit native untuk komunikasi lossless. Sebaliknya, RoCE berjalan di atas Ethernet standar dan bergantung pada konfigurasi fitur seperti Priority Flow Control (PFC) dan Explicit Congestion Notification (ECN) untuk menciptakan jaringan lossless. Ini berarti InfiniBand memberikan jaminan kinerja tinggi langsung dari kotak, sementara kinerja RoCE bergantung pada kualitas konfigurasi Ethernet yang mendasarinya.
C. Infrastruktur dan Manajemen
- Perangkat Keras Khusus: InfiniBand memerlukan perangkat keras khusus, termasuk Host Channel Adapter (HCA) khusus, switch, router, dan kabel propieter. Hal ini biasanya menghasilkan investasi awal yang lebih tinggi dibandingkan dengan solusi berbasis Ethernet.
- Manajemen Terpusat: Jaringan InfiniBand dikelola oleh Subnet Manager (SM) terpusat, yang menghitung dan mendistribusikan tabel penerusan serta mengelola konfigurasi seperti partisi dan Quality of Service (QoS). Pendekatan terpusat ini dapat menyederhanakan manajemen di klaster besar setelah penyiapan awal.
- Keahlian Khusus: Menerapkan dan memelihara jaringan InfiniBand biasanya memerlukan pengetahuan khusus, yang dapat meningkatkan biaya operasional dan menciptakan kurva belajar yang lebih curam bagi staf TI.
- Ekosistem: Ekosistem InfiniBand sudah matang tetapi didominasi oleh NVIDIA/Mellanox.
D. Aplikasi Utama
InfiniBand adalah standar industri untuk lingkungan High-Performance Computing (HPC) dan merupakan interkoneksi dengan pertumbuhan tercepat untuk aplikasi ini. Ini adalah teknologi utama yang direkomendasikan oleh IBTA. Latensi ultra-rendah dan bandwidth tingginya sangat penting untuk beban kerja yang menuntut seperti pelatihan model AI/ML skala besar, analitik big data, dan operasi database masif. InfiniBand juga krusial untuk simulasi besar (misalnya, peramalan cuaca) dan layanan keuangan frekuensi tinggi, di mana kecepatan dan integritas data sangat penting. Per Juni 2022, 62% dari superkomputer Top100 di dunia menggunakan InfiniBand.
V. iWARP: RDMA over Standard TCP/IP
iWARP (Internet Wide Area RDMA Protocol) adalah metode lain untuk mengimplementasikan RDMA, yang terkenal karena penggunaannya atas suite protokol TCP/IP standar.
A. Prinsip Arsitektur
- RDMA over TCP/IP: iWARP adalah protokol yang mengimplementasikan RDMA di atas jaringan IP standar. Berbeda dengan RoCE yang menggunakan UDP, iWARP dibangun di atas protokol transport yang andal seperti TCP dan SCTP.
- Komponen Kunci: Operasi iWARP bergantung pada beberapa komponen. Direct Data Placement Protocol (DDP) memungkinkan transmisi zero-copy dengan menempatkan data langsung ke dalam memori aplikasi. Remote Direct Memory Access Protocol (RDMAP) menyediakan layanan untuk operasi baca dan tulis RDMA. Lapisan adaptasi spesifik, Marker PDU Aligned (MPA) framing, diperlukan untuk mengaktifkan DDP di atas TCP.
- Keandalan: Fitur unik dari iWARP adalah keandalannya disediakan oleh protokol TCP yang mendasarinya. Ini berbeda dari RoCE v2, yang menggunakan UDP dan memerlukan mekanisme eksternal seperti Data Center Bridging (DCB) untuk keandalan. Akibatnya, iWARP hanya mendukung komunikasi yang andal dan terhubung.
B. Profil Kinerja
- Latensi dan Throughput Komparatif: Meskipun iWARP memiliki latensi lebih rendah daripada TCP/IP tradisional, kinerjanya umumnya lebih buruk daripada RoCE. Pada tahun 2011, latensi HCA iWARP terendah adalah 3 mikrodetik, sementara HCA RoCE mencapai 1,3 mikrodetik. Benchmark secara konsisten menunjukkan bahwa RoCE mengirimkan pesan jauh lebih cepat daripada iWARP, dengan throughput lebih dari 2X lebih tinggi pada 40GbE dan 5X lebih tinggi pada 10GbE.
- CPU Offload: Seperti protokol RDMA lainnya, iWARP meminimalkan beban CPU dengan memungkinkan transfer memori langsung. iWARP dapat menggunakan TCP Offload Engines (TOE) dengan perangkat keras RDMA untuk mencapai hasil zero-copy dan mengurangi keterlibatan CPU lebih lanjut.
C. Infrastruktur dan Manajemen
- Kompatibilitas dengan Ethernet Standar: Manfaat utama iWARP adalah kemampuannya untuk berjalan di atas infrastruktur Ethernet standar dengan perubahan minimal pada jaringan yang ada. Ini memungkinkan organisasi untuk memanfaatkan investasi mereka saat ini.
- Persyaratan Perangkat Keras: Meskipun kompatibel dengan switch Ethernet standar, iWARP masih memerlukan kartu jaringan yang mampu menangani iWARP di titik akhir.
- Aspek Integrasi: iWARP terintegrasi ke dalam sistem operasi utama seperti Microsoft Windows Server dan kernel Linux modern. Ini mendukung aplikasi seperti SMB Direct, iSCSI Extensions for RDMA (iSER), dan Network File System over RDMA (NFS over RDMA).
- Tantangan Manajemen: Mengelola lalu lintas iWARP bisa jadi sulit. iWARP berbagi ruang port TCP, yang mempersulit manajemen aliran dan menyulitkan identifikasi lalu lintas RDMA. Secara keseluruhan, iWARP dianggap lebih sulit dikelola daripada RoCE.
D. Relevansi Pasar
- Adopsi Terbatas: iWARP adalah implementasi RDMA yang "tidak umum" atau "kurang umum digunakan" dibandingkan dengan InfiniBand dan RoCE v2. Solusinya memiliki "keberhasilan terbatas" karena tantangan dalam implementasi dan penerapan.
- Paradoks Ketergantungan pada TCP: Pilihan desain iWARP untuk melapisi RDMA di atas TCP memberikan keandalan dan kompatibilitas bawaan, tetapi secara paradoks, hal itu mencegahnya mencapai manfaat inti RDMA sepenuhnya. Overhead inheren dari protokol TCP, bahkan dengan offload perangkat keras, tampaknya membuat iWARP tidak dapat mencapai latensi ultra-rendah dan throughput tinggi seperti InfiniBand atau RoCE. Trade-off kinerja ini telah menyebabkan adopsi pasarnya yang terbatas.
VI. Analisis Komparatif: RoCE v2 vs. InfiniBand vs. iWARP vs. Ethernet Standar
Perbandingan terperinci antara kinerja, infrastruktur, dan metrik operasional adalah kunci untuk memilih interkoneksi berkinerja tinggi yang tepat.
A. Benchmark Kinerja
Kinerja interkoneksi ini sangat berbeda, terutama dalam hal latensi, bandwidth, dan utilisasi CPU.
- Latensi:
- InfiniBand: Menawarkan latensi terendah. Latensi switch port-to-port sekitar 100 nanodetik, sementara latensi adaptor serendah 0,5 hingga 1,3 mikrodetik. Latensi tingkat aplikasi bisa serendah 2 mikrodetik.
- RoCE v2: Memberikan latensi ultra-rendah. Latensi switch Ethernet sekitar 230 nanodetik, sementara latensi HCA bisa serendah 1,3 mikrodetik. Latensi tingkat aplikasi biasanya sekitar 5 mikrodetik.
- iWARP: Memiliki latensi lebih tinggi dari RoCE, dengan latensi HCA dilaporkan sekitar 3 mikrodetik (data 2011). Kinerjanya secara konsisten lebih buruk dari RoCE.
- TCP/IP Standar: Memiliki latensi tertinggi, dengan latensi satu arah dari 10 hingga 55 milidetik. Latensi tingkat aplikasi biasanya sekitar 50 mikrodetik.
- Bandwidth:
- InfiniBand: Mendukung bandwidth yang sangat tinggi. Versi modern seperti NDR menawarkan hingga 400 Gbps per port, dan XDR mencapai hingga 800 Gbps. GDR di masa depan diproyeksikan mencapai 1,6 Tbps.
- RoCE v2: Mampu mencapai bandwidth tinggi, mendukung hingga 400 Gbps per port.
- iWARP: Umumnya memiliki throughput lebih rendah dari RoCE.
- TCP/IP Standar: Throughput sering kali dibatasi oleh overhead protokol dan transmisi ulang, sehingga sulit untuk menggunakan tautan bandwidth tinggi secara efisien.
- CPU Offload:
- InfiniBand, RoCE v2, iWARP: Ketiga teknologi RDMA ini melakukan offload pekerjaan CPU secara signifikan dengan melewati sistem operasi, membebaskan sumber daya CPU untuk tugas lain.
- TCP/IP Standar: Menimbulkan beban CPU yang tinggi karena kernel sangat terlibat dalam pemrosesan data.
- Mekanisme Lossless:
- InfiniBand: Memiliki credit-based flow control native tingkat perangkat keras, yang menjamin komunikasi lossless.
- RoCE v2: Bergantung pada konfigurasi Ethernet lossless, menggunakan fitur Data Center Bridging (DCB) seperti PFC dan ECN. RoCE v2 juga memiliki mekanisme pengiriman andal end-to-end dengan transmisi ulang berbasis perangkat keras.
- iWARP: Menggunakan transport andal bawaan TCP untuk integritas data.
- TCP/IP Standar: Menggunakan model pengiriman best-effort, mengandalkan transmisi ulang di lapisan yang lebih tinggi untuk memastikan keandalan, yang menambah latensi.
Tabel berikut merangkum karakteristik kinerja:
| Fitur | InfiniBand | RoCE v2 | iWARP | Ethernet/TCP/IP Standar |
|---|---|---|---|---|
| Teknologi Inti | RDMA Native | RDMA over Ethernet (UDP/IP) | RDMA over Ethernet (TCP/IP) | Protokol Berlapis Tradisional |
| Latensi Aplikasi Tipikal (µs) | 2 | 5 | >3 (HCA 2011) | 50 |
| Latensi Switch Port-to-Port (ns) | 100 | 230 | T/A (bergantung pada Ethernet) | Biasanya lebih tinggi, bervariasi |
| Bandwidth Maks (Gbps per port/link) | 400 (NDR), 800 (XDR), 1,6T (GDR) | 400 | Umumnya lebih rendah dari RoCE | 400+ (tapi dibatasi overhead protokol) |
| Overhead CPU | Mendekati Nol | Sangat Rendah | Rendah | Tinggi |
| Mekanisme Lossless | Credit-Based Flow Control Native | Memerlukan Ethernet Lossless (PFC, ECN) | Transport Andal TCP | Best-Effort, Bergantung pada Transmisi Ulang |
| Kemampuan Routing (L2/L3) | L3 (via Subnet Manager) | L3 (Routable RoCE) | L3 | L3 (Routing IP Standar) |
B. Infrastruktur dan Ekosistem
- Ketergantungan Perangkat Keras:
- InfiniBand: Memerlukan satu set lengkap perangkat keras khusus, termasuk HCA InfiniBand, switch, dan kabel propieter.
- RoCE v2: Memerlukan HCA yang mampu menangani RoCE tetapi bekerja di atas switch dan kabel Ethernet standar, memungkinkan integrasi dengan jaringan yang ada.
- iWARP: Memerlukan kartu jaringan yang mampu menangani iWARP tetapi dapat menggunakan switch Ethernet standar.
- Ethernet Standar: Menggunakan NIC dan switch Ethernet komoditas yang tersedia secara luas.
- Keterikatan Vendor (Vendor Lock-in):
- InfiniBand: Ekosistemnya terbatas dan didominasi oleh Mellanox (NVIDIA), yang dapat menimbulkan kekhawatiran tentang vendor lock-in.
- RoCE v2: Mendapat manfaat dari ekosistem Ethernet yang besar dan kompetitif dengan banyak vendor. Beberapa menawarkan NIC "Universal RDMA" yang mendukung RoCE dan iWARP, mengurangi keterikatan.
- iWARP: Juga mendapat manfaat dari ekosistem Ethernet yang luas, dengan dukungan dari vendor seperti Intel dan Chelsio.
- Interoperabilitas:
- InfiniBand: Sebagai standar propieter, semua komponen harus mematuhi spesifikasi IBTA untuk memastikan mereka bekerja sama.
- RoCE v2: Fondasinya pada Ethernet standar memungkinkan interoperabilitas yang lebih luas dan integrasi yang lebih mudah dengan jaringan yang ada.
- iWARP: Berdasarkan RFC IETF standar untuk TCP/IP, memastikan kompatibilitas tinggi dalam jaringan IP standar.
C. Efektivitas Biaya
- Investasi Awal:
- InfiniBand: Biasanya memerlukan investasi awal yang lebih tinggi karena perangkat keras khusus dan lisensi. Untuk klaster AI besar, switch InfiniBand bisa jauh lebih mahal daripada switch RoCE.
- RoCE v2: Seringkali menjadi pilihan yang lebih hemat biaya karena dapat berintegrasi dengan Ethernet yang ada, mengurangi biaya perangkat keras baru. Penghematan pada switch untuk klaster AI besar bisa substansial (49% hingga 70% dibandingkan InfiniBand).
- iWARP: Menggunakan switch Ethernet standar tetapi memerlukan adaptor khusus, yang masih bisa menjadi biaya yang signifikan.
- Ethernet Standar: Umumnya merupakan pilihan dengan biaya terendah karena perangkat keras komoditasnya.
- Total Biaya Kepemilikan (TCO):
- InfiniBand: Cenderung memiliki TCO yang lebih tinggi karena perangkat keras khusus, pemeliharaan, dan kebutuhan pelatihan staf pada teknologi propieter.
- RoCE v2: Dapat memiliki TCO yang lebih rendah, tetapi ini bersyarat. Kompleksitas dalam mengonfigurasi dan memelihara fabric Ethernet lossless dapat meningkatkan biaya operasional secara signifikan. Meskipun biaya perangkat keras awal mungkin lebih rendah, pengetahuan khusus dan upaya yang diperlukan untuk desain, pemecahan masalah, dan pemeliharaan dapat mengimbangi penghematan ini. Oleh karena itu, "efektivitas biaya" bergantung pada harga perangkat keras dan keahlian serta beban manajemen organisasi.
- iWARP: Tantangan integrasi dan manajemen dapat memengaruhi TCO keseluruhannya.
Tabel berikut memberikan gambaran komparatif tentang pertimbangan infrastruktur dan biaya:
| Fitur | InfiniBand | RoCE v2 | iWARP | Ethernet/TCP/IP Standar |
|---|---|---|---|---|
| Perangkat Keras Jaringan yang Diperlukan | NIC IB, Switch IB, Kabel IB khusus | NIC mampu RoCE, Switch/Kabel Ethernet Standar | NIC mampu iWARP, Switch/Kabel Ethernet Standar | NIC Ethernet, Switch/Kabel Ethernet Standar |
| Kompatibilitas Jaringan | Propieter (Standar IBTA) | Ethernet Standar (IEEE) | Ethernet Standar (RFC IETF) | Ethernet Standar (IEEE) |
| Kompleksitas Manajemen | Sulit (SM Khusus) | Sulit (Konfigurasi Ethernet Lossless) | Lebih sulit dari RoCE | Mudah |
| Biaya Perangkat Keras Awal (Relatif) | Tinggi | Sedang (Memanfaatkan yang ada) | Sedang (NIC Khusus) | Rendah |
| Total Biaya Kepemilikan (Relatif) | Lebih Tinggi | Lebih Rendah (Tergantung manajemen) | Bervariasi (Tantangan integrasi) | Terendah |
| Ekosistem Vendor | Terbatas (Dominan NVIDIA/Mellanox) | Luas (Banyak vendor Ethernet) | Luas (Banyak vendor Ethernet) | Sangat Luas |
D. Skalabilitas dan Fleksibilitas
- Kemampuan Routing:
- InfiniBand: Menggunakan switched fabric dengan routing yang dikelola secara terpusat oleh Subnet Manager (SM). Sangat skalabel, mendukung klaster dengan lebih dari 100.000 node.
- RoCE v2: Enkapsulasi UDP/IP-nya memungkinkan untuk dirutekan melalui jaringan IP Lapisan 3, membuatnya skalabel di seluruh jaringan besar dan lingkungan cloud. RoCE v2 juga mendukung ECMP untuk load balancing yang efisien.
- iWARP: Dapat dirutekan melalui jaringan IP.
- Ethernet Standar: Sangat skalabel dan fleksibel, tetapi mungkin memerlukan konfigurasi lanjutan seperti arsitektur spine-leaf untuk efisiensi tingkat HPC.
- Topologi Jaringan:
- InfiniBand: Dioptimalkan untuk klaster HPC/AI, mendukung topologi berkinerja tinggi seperti Fat Tree, Dragonfly+, dan Torus multi-dimensi.
- RoCE v2: Routing berbasis IP-nya membuatnya dapat beradaptasi dengan hampir semua topologi jaringan.
- Ethernet Standar: Mendukung berbagai macam topologi, termasuk star dan mesh.
E. Keandalan dan Kontrol Kemacetan
- Keandalan:
- InfiniBand: Menyediakan keandalan native tingkat perangkat keras dengan credit-based flow control-nya, menjamin komunikasi lossless.
- RoCE v2: Bergantung pada konfigurasi Ethernet lossless menggunakan PFC dan ETS. RoCE v2 juga menyertakan mekanisme pengiriman andal end-to-end dengan retransmisi paket berbasis perangkat keras.
- iWARP: Mendapat manfaat dari keandalan inheren TCP, yang menyediakan koreksi kesalahan dan transmisi ulang.
- TCP/IP Standar: Berfokus pada keandalan melalui transmisi ulang, yang dapat menambah latensi signifikan dan mengurangi throughput.
- Kontrol Kemacetan:
- InfiniBand: Mendefinisikan mekanisme kontrol kemacetannya sendiri berdasarkan penandaan FECN/BECN.
- RoCE v2: Mengimplementasikan protokol kontrol kemacetan menggunakan bit IP ECN dan Congestion Notification Packets (CNPs). Praktik industri seperti DCQCN juga digunakan.
- iWARP: Bergantung pada algoritme kontrol kemacetan yang sudah mapan dari TCP.
F. Kesesuaian Aplikasi
- InfiniBand: Pilihan ideal untuk lingkungan yang membutuhkan throughput data tertinggi dan latensi terendah. Ini termasuk penelitian ilmiah, pemodelan keuangan, klaster HPC skala besar, dan beban kerja pelatihan AI/ML yang paling menuntut.
- RoCE v2: Disukai oleh perusahaan yang ingin menggunakan infrastruktur Ethernet mereka yang ada sambil tetap membutuhkan kinerja tinggi. Sangat cocok untuk jaringan penyimpanan, analitik real-time, dan layanan cloud, menawarkan keseimbangan antara kinerja dan biaya.
- iWARP: Dapat dipertimbangkan untuk aplikasi niche di mana infrastruktur TCP/IP yang ada adalah persyaratan ketat dan latensi ultra-rendah bukanlah prioritas utama. Cocok untuk aplikasi seperti NVMeoF, iSER, SMB Direct, dan NFS over RDMA, atau sebagai opsi berbiaya rendah untuk lingkungan pengujian.
- Ethernet/TCP/IP Standar: Tetap menjadi pilihan terbaik untuk jaringan serba guna, seperti LAN perusahaan dan infrastruktur cloud di mana kinerja ekstrem HPC/AI bukan tujuan utama.
- Trilema Kinerja-Biaya-Kompleksitas: Analisis ini mengungkapkan trade-off mendasar saat memilih interkoneksi: sebuah trilema antara kinerja, biaya, dan kompleksitas. InfiniBand menawarkan kinerja puncak dan keandalan native tetapi dengan biaya lebih tinggi. RoCE v2 memberikan kinerja mendekati InfiniBand di Ethernet, berpotensi menurunkan biaya perangkat keras tetapi menambah kompleksitas konfigurasi yang signifikan. iWARP menawarkan RDMA di atas TCP tetapi dengan kinerja lebih rendah. Ethernet standar hemat biaya tetapi tidak memiliki kinerja untuk beban kerja yang menuntut. Tidak ada satu solusi "terbaik"; pilihan yang tepat memerlukan penyeimbangan ketiga faktor ini berdasarkan kebutuhan dan kemampuan spesifik.
Tabel berikut menguraikan kesesuaian aplikasi untuk setiap teknologi:
| Teknologi | Kasus Penggunaan Utama | Paling Cocok Untuk | Kurang Cocok Untuk |
|---|---|---|---|
| InfiniBand | HPC, Pelatihan AI/ML, Analitik Big Data, Layanan Keuangan (Arbitrase) | Lingkungan yang menuntut latensi absolut terendah, bandwidth tertinggi, dan jaminan lossless native | Jaringan perusahaan umum yang sensitif terhadap biaya, lingkungan tanpa keahlian TI khusus |
| RoCE v2 | Pusat Data, Layanan Cloud, Jaringan Penyimpanan, Analitik Real-time, Inferensi AI/ML | Organisasi yang memanfaatkan infrastruktur Ethernet yang ada untuk kinerja tinggi; keseimbangan biaya dan kinerja | Lingkungan di mana jaminan lossless native tidak dapat ditawar tanpa keahlian konfigurasi yang luas |
| iWARP | NVMeoF, iSER, SMB Direct, NFS over RDMA, Lingkungan Uji/Pengembangan | Aplikasi spesifik yang memerlukan RDMA di atas TCP/IP yang ada, di mana kinerja puncak absolut tidak kritis | Klaster HPC/AI skala besar, aplikasi real-time yang sensitif terhadap latensi |
| Ethernet/TCP/IP Standar | Jaringan Perusahaan Umum, LAN, Konektivitas Internet, Infrastruktur Cloud | Jaringan serba guna yang ada di mana-mana, hemat biaya, dan fleksibel | Komputasi berkinerja tinggi, pelatihan AI/ML, dan beban kerja intensif CPU dan sensitif latensi lainnya |
VII. Interkoneksi Berkinerja Tinggi Baru dan Tren Masa Depan
Lanskap jaringan berkinerja tinggi selalu berubah, didorong oleh beban kerja padat data dan kebutuhan akan efisiensi yang lebih besar. Di luar teknologi RDMA yang sudah mapan, interkoneksi dan tren baru sedang membentuk masa depan pusat data.
A. Compute Express Link (CXL)
CXL adalah interkoneksi modern yang dibangun di atas lapisan fisik PCIe, dirancang untuk sistem komputasi umum. Tujuan utamanya adalah untuk memungkinkan komunikasi yang cepat dan mulus antara CPU dan akselerator seperti GPU dan FPGA.
Fitur utama CXL meliputi transfer data berkecepatan tinggi, kompatibilitas luas, dan pembagian memori yang efisien melalui Koherensi Cache. CXL mendukung tiga jenis perangkat (untuk akselerator, perangkat koheren-cache, dan perluasan memori) dan topologi yang fleksibel. CXL/PCIe Gen5 menawarkan throughput puncak 512 Gbps dengan latensi sekitar 500 nanodetik. Meskipun InfiniBand memiliki latensi lebih rendah (sekitar 100 nanodetik), CXL lebih unggul untuk akses memori latensi rendah di mana koherensi cache sangat penting.
Perkembangan besar adalah penggabungan Konsorsium Gen-Z dan CXL pada tahun 2022, yang menempatkan CXL sebagai satu-satunya standar industri untuk kelas interkoneksi yang berfokus pada memori ini.
CXL mewakili pergeseran dari jaringan node-ke-node tradisional (seperti RoCE dan InfiniBand) menuju koherensi memori dan disagregasi sumber daya. Ini berarti bahwa untuk beban kerja tertentu, CXL dapat menjadi interkoneksi utama, melengkapi atau mengurangi kebutuhan akan fabric jaringan tradisional.
B. NVLink
NVLink adalah interkoneksi propieter NVIDIA yang memiliki bandwidth tinggi dan latensi rendah, direkayasa untuk komunikasi langsung GPU-ke-GPU dan GPU-ke-CPU dalam platform komputasi terakselerasinya.
NVLink adalah bagian penting dari solusi NVIDIA untuk AI dan HPC, seperti arsitektur GB200 dan GB300-nya. NVLink sangat penting untuk penskalaan pelatihan model AI dengan menyediakan transfer data yang sangat cepat antar GPU.
NVLink menunjukkan tren menuju integrasi vertikal dan kinerja khusus. Sifatnya yang propieter kontras dengan standar terbuka seperti RoCE atau InfiniBand. Desain ini memaksimalkan kinerja dalam tumpukan perangkat keras satu vendor. Sementara InfiniBand dan RoCE menangani jaringan umum antar-node, NVLink mengoptimalkan komunikasi di dalam dan di antara sistem GPU, menciptakan arsitektur interkoneksi berjenjang di mana teknologi yang berbeda melayani kebutuhan yang berbeda.
C. Kecepatan Ethernet Masa Depan
Ethernet telah berevolusi dari 10 Mbps menjadi 400 Gbps, dan perkembangannya terus berlanjut dengan standar 800GbE dan 1.6TbE di cakrawala. Kecepatan yang lebih tinggi ini akan sangat penting untuk aplikasi generasi berikutnya seperti komputasi kuantum, AI canggih, dan teknologi imersif.
Kenaikan kecepatan Ethernet yang berkelanjutan secara langsung menguntungkan RoCE. Karena RoCE dibangun di atas Ethernet, RoCE secara otomatis mendapatkan keuntungan dari kemajuan ini, membantunya tetap kompetitif dengan InfiniBand. Pertumbuhan layanan cloud sudah mendorong penyebaran 200GbE dan 400GbE, dengan 800GbE dan 1.6TbE akan menyusul.
Relevansi Ethernet dan RoCE yang berkelanjutan saling terkait erat. Seiring kemajuan kecepatan Ethernet, RoCE menjadi pesaing yang lebih kuat untuk pusat data berkinerja tinggi, terutama bagi organisasi yang ingin memanfaatkan investasi Ethernet mereka yang ada dan menghindari ekosistem propieter.
D. Komputasi Terdisagregasi dan Fotonik
- Komputasi Terdisagregasi: Pendekatan baru ini bertujuan untuk meningkatkan efisiensi pusat data dengan memisahkan sumber daya seperti komputasi, penyimpanan, dan memori dari server tradisional. Sumber daya ini kemudian dirakit kembali menjadi pool fleksibel yang dihubungkan oleh jaringan canggih. Hasil utamanya adalah komunikasi yang dulu terjadi di dalam server sekarang melintasi jaringan, secara dramatis meningkatkan beban dan membuat latensi ultra-rendah menjadi kritis. Tren ini memperkuat kebutuhan akan interkoneksi berkinerja tinggi seperti RoCE dan InfiniBand dan mendorong pengembangan yang baru seperti CXL.
- Fotonik dalam Jaringan Pusat Data: Fotonik silikon mengintegrasikan komponen optik ke dalam chip silikon, memungkinkan interkoneksi optik berkecepatan tinggi dan berdaya rendah. Teknologi ini menawarkan kecepatan transfer data yang jauh lebih cepat (lebih dari 100 Gbps), latensi lebih rendah, dan efisiensi energi yang lebih baik daripada tembaga tradisional. Ini menjadi penting untuk memenuhi tuntutan lalu lintas yang terus meningkat di pusat data dan memungkinkan generasi berikutnya dari Ethernet berkecepatan tinggi.
Hubungan antara tren-tren ini bersifat simbiosis. Arsitektur terdisagregasi memerlukan jaringan canggih, yang disediakan oleh interkoneksi seperti RoCE, InfiniBand, dan CXL. Pada gilirannya, mencapai kecepatan yang diperlukan untuk interkoneksi ini, terutama untuk standar 800GbE dan 1.6TbE di masa depan, akan bergantung pada teknologi seperti fotonik silikon.
VIII. Rekomendasi dan Kesimpulan
Memilih interkoneksi berkinerja tinggi adalah keputusan strategis penting yang harus selaras dengan kebutuhan spesifik, anggaran, infrastruktur, dan visi jangka panjang organisasi.
- Untuk Kinerja Mentah Maksimal dan HPC/AI Misi-Kritis: InfiniBand adalah standar emas yang jelas. RDMA native-nya, credit-based flow control, dan desain yang dibuat khusus memberikan latensi terendah dan throughput tertinggi dengan jaminan kinerja lossless. Organisasi dengan anggaran dan keahlian yang memadai harus memilih InfiniBand untuk klaster skala besar di mana setiap mikrodetik sangat berarti.
- Untuk Kinerja Tinggi dengan Efektivitas Biaya dan Integrasi Ethernet: RoCE v2 adalah alternatif yang kuat dan semakin populer. RoCE v2 menawarkan peningkatan kinerja yang besar dibandingkan TCP/IP dan dapat mendekati kinerja InfiniBand dengan menggunakan infrastruktur Ethernet yang ada. Ini ideal untuk organisasi yang meningkatkan pusat data mereka tanpa perombakan total. Namun, pilihan ini memerlukan komitmen untuk mengonfigurasi dan mengelola fabric Ethernet lossless dengan cermat.
- Untuk Aplikasi Niche atau Lingkungan RDMA over TCP Warisan: iWARP mungkin cocok dalam kasus-kasus tertentu, terutama di mana penggunaan infrastruktur TCP/IP yang ada adalah suatu keharusan dan kinerja puncak bukan tujuan utama. Namun, kinerjanya yang lebih rendah dan kompleksitas manajemen yang lebih tinggi membatasi penggunaannya dalam penerapan berkinerja tinggi modern.
- Untuk Jaringan Serba Guna: Ethernet/TCP/IP Standar tetap menjadi pilihan yang paling umum dan hemat biaya untuk lingkungan tanpa tuntutan kinerja ekstrem. Kemudahan penggunaan dan perangkat keras komoditasnya membuatnya sempurna untuk jaringan perusahaan umum, LAN, dan infrastruktur cloud standar.
- Mempertimbangkan Teknologi Baru untuk Masa Depan: Organisasi harus mengamati perkembangan CXL untuk arsitektur yang berpusat pada memori dan terdisagregasi, karena CXL melengkapi fabric jaringan tradisional dengan mengoptimalkan pengumpulan sumber daya. Demikian pula, NVLink sangat penting untuk mengoptimalkan komunikasi dalam sistem padat GPU NVIDIA. Teknologi-teknologi ini menunjukkan diversifikasi interkoneksi untuk berbagai lapisan hierarki komputasi. Selain itu, pengembangan Ethernet 800GbE dan 1.6TbE, bersama dengan kemajuan dalam fotonik, akan terus membuat RoCE menjadi pilihan yang lebih kuat.
Sebagai kesimpulan, dunia jaringan berkinerja tinggi itu kompleks, didorong oleh tuntutan AI, HPC, dan pergeseran menuju komputasi terdisagregasi. Meskipun InfiniBand memimpin dalam kinerja absolut untuk lingkungan khusus, RoCE v2 menyediakan alternatif yang kuat dan fleksibel yang menjembatani manfaat RDMA dengan keberadaan Ethernet di mana-mana. Munculnya CXL dan NVLink menunjukkan diversifikasi strategis interkoneksi, yang mengoptimalkan lapisan komunikasi yang berbeda. Solusi optimal akan selalu merupakan keseimbangan strategis antara persyaratan kinerja, biaya, infrastruktur yang ada, dan visi yang berorientasi ke masa depan.




