I. Kokkuvõte
Kaasaegsed andmekeskused peavad toetama nõudlikke töökoormusi, nagu kõrgjõudlusega andmetöötlus (HPC), tehisintellekt/masinõpe (AI/ML) ja suurandmete analüüs. Need rakendused nõuavad ülimadalat latentsust, suurt ribalaiust ja minimaalset protsessori koormust. Traditsioonilised võrguprotokollid, nagu TCP/IP, ei suuda nendele vajadustele vastata oma suure lisakoormuse ja latentsuse tõttu.
Kaug-otsemälupöördus (RDMA) on võtmetehnoloogia, mis võimaldab kõrgjõudlusega ühendusi. RDMA lubab võrku ühendatud arvutitel andmeid edastada otse oma mälude vahel, kaasamata operatsioonisüsteeme või protsessoreid (mälu-mällu). See protsess vähendab oluliselt latentsust ja protsessori koormust.
- InfiniBand on spetsiaalselt loodud patenteeritud ühendusvõrk, mis on kavandatud suurima võimaliku jõudluse ja loomupärase kadudeta toimimise tagamiseks.
- RoCE v2 (RDMA over Converged Ethernet) rakendab RDMA eeliseid standardse Etherneti kaudu, pakkudes marsruuditavat ja kulutõhusamat varianti, kuid see nõuab kadudeta toimimiseks spetsiifilisi konfiguratsioone.
- iWARP on teine RDMA-üle-Etherneti lahendus, mis põhineb TCP-l, kuid see on üldiselt vähem levinud ja pakub madalamat jõudlust kui RoCE v2.
Õige ühenduse valimine on strateegiline otsus, mis sõltub jõudlusvajadustest, eelarvest, olemasolevast taristust ja skaleeritavuse eesmärkidest. See aruanne analüüsib neid tehnoloogiaid, võrdleb neid standardse Etherneti/TCP/IP-ga ning uurib uusi alternatiive, nagu CXL ja NVLink, et aidata seda kriitilist otsust langetada.
II. Sissejuhatus kõrgjõudlusega võrkudesse ja RDMA-sse
Tänapäeva digimaailma iseloomustab andmemahukate rakenduste, nagu kõrgjõudlusega andmetöötlus (HPC), tehisintellekt/masinõpe (AI/ML) ja suurandmete analüüs, eksponentsiaalne kasv. Need töökoormused peavad liigutama tohutuid andmehulki kiiresti ja tõhusalt arvutussõlmede ja salvestusruumi vahel. Näiteks tehisintellekti rakendused on väga tundlikud andmete terviklikkuse suhtes ja nõuavad kadudeta võrke, kus üksainus kaotatud sõnum võib rikkuda kogu treeningtsükli. Ka suure ribalaiusega liiklus on nende rakenduste jaoks andmete tõhusaks töötlemiseks hädavajalik.
Traditsioonilise TCP/IP Etherneti piirangud kõrgjõudlusega rakenduste jaoks
Kuigi traditsiooniline TCP/IP Ethernet on üldise võrguliikluse jaoks usaldusväärne, on sellel kõrgjõudlusega rakenduste jaoks olulisi piiranguid:
- Kõrge latentsus ja protsessori lisakoormus: TCP/IP disain saadab andmeid läbi mitme tarkvarakihi operatsioonisüsteemi tuumas, nõudes märkimisväärset protsessori osalust. See protsess lisab arvestatava latentsuse (tavaliselt kümneid mikrosekundeid) ja koormab tugevalt protsessorit. Latentsustundlike rakenduste jaoks muutub see suureks pudelikaelaks, kuna protsessor kulutab aega võrguliikluse haldamisele, mitte rakenduse käitamisele. See kontekstivahetusest ja andmete kopeerimisest tulenev „protsessori maks” on peamine põhjus RDMA tehnoloogiate kasutuselevõtuks, mis suunavad võrgu töötlemise mujale ja vabastavad protsessori rakenduse ülesannete jaoks.
- Läbilaskevõime piirangud: Mitmed tegurid piiravad TCP tegelikku läbilaskevõimet, sealhulgas edastus-akna suurus, segmendi suurus ja pakettide kadu. Standardne TCP-akna suurus (sageli piiratud 65 535 baidiga) võib takistada suure ribalaiusega ühenduste täielikku ärakasutamist, eriti suurema latentsusega võrkudes. Lisaks sellele põhjustab TCP peamine usaldusväärsuse mehhanism – pakettide uuesti edastamine – viivitusi ja kasutab lisaribalaiust, kahjustades jõudlust ülekoormatud või kadudega võrkudes.
- Skaleeritavuse väljakutsed: Kuigi TCP/IP skaleerub suurte võrkude jaoks hästi, eelistab selle disain üldist usaldusväärsust toorele jõudlusele. See muudab selle vähem tõhusaks stsenaariumide puhul, mis nõuavad äärmuslikku läbilaskevõimet ja minimaalset latentsust, nagu suuremahulised HPC klastrid või reaalajas tehisintellekti järeldused.
Kaug-otsemälupöörduse (RDMA) põhimõtted ja peamised eelised
Kaug-otsemälupöördus (RDMA) töötati välja TCP/IP piirangute ületamiseks kõrgjõudlusega keskkondades. Selle peamised eelised tulenevad protsessori ja operatsioonisüsteemi möödaviimisest andmeedastuse ajal:
- Otsemälupöördus (null-koopia): RDMA edastab andmeid otse ühe arvuti mälust teise, kaasamata kummagi süsteemi protsessorit või operatsioonisüsteemi. See „null-koopia” lähenemine välistab vahepealsed andmepuhvrid ja kontekstivahetused, mis on traditsioonilises võrgunduses peamised lisakoormuse allikad.
- Vähendatud latentsus ja protsessori koormus: Protsessorist ja operatsioonisüsteemist möödudes vähendab RDMA drastiliselt side latentsust ja vabastab protsessori tsükleid. See toob kaasa kiiremad arvutused ja parema reaalajas andmetöötluse. Näiteks võib rakenduse latentsus langeda umbes 50 mikrosekundilt TCP/IP-ga kuni 2–5 mikrosekundini RDMA-ga.
- Suurem ribalaiuse kasutus: RDMA tõhus andmetee ja vähendatud lisakoormus võimaldavad rakendustel paremini ära kasutada olemasolevat võrgu ribalaiust, mis toob kaasa suurema tegeliku läbilaskevõime.
- Peamised rakendused: Tänapäeval kasutatavad peamised RDMA tehnoloogiad on InfiniBand, RoCE (versioonid 1 ja 2) ja iWARP.
III. RoCE v2: RDMA üle koond-Etherneti (RDMA over Converged Ethernet)
RoCE v2 on suur samm edasi kõrgjõudlusega võrgunduses, laiendades RDMA eeliseid laialt levinud Etherneti ökosüsteemile.
A. Arhitektuurilised põhimõtted
- Areng RoCE v1-st: RoCE v1 oli 2. kihi protokoll (Ethertype 0x8915), mis piiras selle ühte Etherneti levisfääri ja vähendas selle skaleeritavust. RoCE v2 lahendab selle probleemi, toimides internetikihis. See kapseldab RDMA liikluse UDP/IP pakettidesse (kasutades UDP sihtporti 4791), muutes selle marsruuditavaks üle 3. kihi IP-võrkude. See marsruuditavus on oluline edasiminek, mis võimaldab RoCE v2 kasutada suuremahulistes andmekeskustes ja pilvekeskkondades.
- RDMA üle Etherneti integratsioon: RoCE pakub meetodit RDMA teostamiseks standardse Etherneti võrgu kaudu. See asendab sisuliselt InfiniBandi võrgukihi IP- ja UDP-päistega, säilitades samal ajal InfiniBandi transpordikihi ja RDMA-protokolli tuuma. See disain võimaldab RoCE-l ära kasutada olemasolevat Etherneti taristut.
- Paketi vorming: RoCE v2 pakett sisaldab IP-päist ja UDP-päist, mis kapseldavad RDMA transpordiprotokolli. Kuigi UDP ei garanteeri pakettide järjekorda, nõuab RoCE v2 standard, et sama lähtepordi ja sihtaadressiga pakette ei tohi ümber järjestada.
- Kompromiss „parim mõlemast maailmast“: RoCE v2 disain on strateegiline kompromiss, mille eesmärk on pakkuda RDMA kõrget jõudlust paindlikul, kulutõhusal ja kõikjaloleval Etherneti platvormil. Kuigi see lähenemine pakub laialdast ühilduvust, tekitab see olulise väljakutse: tagada RDMA-le vajalik kadudeta jõudlus Etherneti võrgus, mis on oma olemuselt kadudega.
B. Jõudlusprofiil
- Latentsus: RoCE hostikanali adapterid (HCA) suudavad saavutada väga madala latentsuse, isegi kuni 1,3 mikrosekundit. Rakenduse tasemel vähendab RoCE latentsust umbes 5 mikrosekundini, mis on tohutu edasiminek võrreldes TCP/IP-ga tüüpilise 50 mikrosekundiga. Kuigi InfiniBand pakub veidi madalamat loomupärast latentsust, on RoCE jõudlus reaalajas rakenduste jaoks suurepärane.
- Ribalaius: RoCE v2 toetab suurt ribalaiust, kiirusega kuni 400 Gbps pordi kohta.
- Protsessori koormuse vähendamine: Nagu teisedki RDMA-protokollid, möödub RoCE andmeedastusel protsessorist. See koormuse vähendamine vabastab väärtuslikke protsessori ressursse arvutusmahukate ülesannete jaoks, mitte võrgu töötlemiseks.
- Kadudeta jõudlus: InfiniBandi jõudlusega võrdlemiseks sõltub RoCE kadudeta Etherneti võrgust. See saavutatakse tavaliselt andmekeskuse sildamise (DCB) funktsioonide, eriti prioriteetse voo juhtimise (PFC) ja otsese ummistusteate (ECN) rakendamisega.
C. Taristu ja haldamine
- Riist-/tarkvara nõuded: RoCE töötab standardse Etherneti riistvaraga, nagu kommutaatorid ja kaablid, mis võimaldab organisatsioonidel kasutada olemasolevat taristut. Siiski nõuab see RoCE-toega hostikanali adaptereid (HCA) lõpp-punktides. Tarkvara tugi on küps, rakendustega Mellanox OFED 2.3+ ja integreeritud Linuxi tuuma v4.5+.
- Kadudeta võrgu konfigureerimine: Kuigi RoCE kasutab standardset Etherneti, võib kadudeta DCB-võrgu loomine olla keerulisem kui InfiniBandi võrgu seadistamine. Iga komponent, alates lõpp-punktidest kuni kommutaatoriteni, peab olema hoolikalt konfigureeritud. See hõlmab prioriteetse voo juhtimise (PFC), täiustatud edastusvaliku (ETS) ja ummistusteate mehhanismide seadistamist. Et see toimiks üle 3. kihi võrkude, tuleb need kadudeta omadused säilitada üle ruuterite, sageli kaardistades 2. kihi prioriteediseaded 3. kihi DSCP QoS-seadetega.
- Haldamise kaalutlused: RoCE-d saab hallata standardsete Etherneti tööriistadega. Siiski võib järjepideva kadudeta jõudluse tagamine ja ummistuste haldamine suuremahulistes RoCE v2 juurutustes olla keeruline ja nõuda eriteadmisi.
- „Kulutõhususe“ varjatud kulu: RoCE-d nimetatakse sageli kulutõhusaks, kuna see saab kasutada olemasolevat Etherneti taristut, kuid see on liialdatud lihtsustus. InfiniBandi-laadse jõudluse saavutamiseks on vaja täiuslikult konfigureeritud kadudeta Etherneti võrku. Andmekeskuse sildamise (DCB) funktsioonide, nagu PFC ja ECN, seadistamise keerukus võib olla palju suurem kui InfiniBandi võrgu konfigureerimine. See keerukus toob kaasa suuremad tegevuskulud võrgu disaini, tõrkeotsingu ja haldamise osas ning võib nõuda kallimaid Etherneti kommutaatoreid. Selle tulemusena võivad esialgsed riistvara säästud RoCE-lt tühistada need suuremad tegevuskulud. Täpne võrdlus nõuab põhjalikku kogukulu (TCO) analüüsi.
D. Peamised rakendused
RoCE v2 on suurepärane lahendus paljude andmekeskuste ja ettevõtete rakenduste jaoks. See sobib eriti hästi keskkondadesse, mis vajavad ülimadalat latentsust ja suurt läbilaskevõimet, näiteks tehisintellekti töökoormused, kõrgsageduslik kauplemine ja reaalajas analüüs. Samuti parandab see nende rakenduste jõudlust, mis sõltuvad suuresti andmebaasidest või failide sisend-/väljundoperatsioonidest. Lisaks aitab RoCE v2 kaasa äritegevuse järjepidevusele ja avariitaastele, võimaldades kiiret ja tõhusat andmete replikatsiooni. Selle laialdane kasutamine tehisintellekti treeningklastrites rõhutab selle tähtsust kaasaegses andmetöötluses.
IV. InfiniBand: Spetsialiseeritud kõrgjõudlusega ühendusvõrk
InfiniBand on tipptasemel kõrgjõudlusega ühendus, mis on algusest peale loodud pakkuma võrratut kiirust, minimaalset latentsust ja suurt usaldusväärsust nõudlikes andmetöötluskeskkondades.
A. Arhitektuurilised põhimõtted
- Loomupärane RDMA: InfiniBand loodi nii, et RDMA on integreeritud kogu selle protokollipaketti, alates füüsilisest kihist ülespoole. See algusest peale loodud disain tagab, et RDMA operatsioonid on väga tõhusad, luues otsesed ja kaitstud andmekanalid sõlmede vahel ilma protsessori osaluseta.
- Kommuteeritud ühendusvõrgu topoloogia: InfiniBand kasutab kommuteeritud ühendusvõrgu topoloogiat seadmete vaheliste otseühenduste jaoks. Arhitektuur sisaldab hostikanali adaptereid (HCA) protsessoritel ja sihtkanali adaptereid (TCA) välisseadmetel, mis võimaldab tõhusat sidet.
- Krediidipõhine voo juhtimine: InfiniBandi põhiline omadus on selle krediidipõhine voo juhtimine. See riistvarataseme algoritm tagab kadudeta side, tagades, et saatja edastab andmeid ainult siis, kui vastuvõtjal on piisavalt puhverruumi (krediite) nende vastuvõtmiseks. See loomupärane usaldusväärsus hoiab ära pakettide kadumise ja eristab InfiniBandi tehnoloogiatest, mis vajavad kadudeta toimimiseks kõrgema kihi konfiguratsioone.
- Patenteeritud standardid: InfiniBand järgib patenteeritud standardeid, mille on määratlenud InfiniBand Trade Association (IBTA), mis asutati 1999. aastal. Ökosüsteemi domineerib tugevalt NVIDIA (läbi Mellanoxi omandamise), kes on juhtiv InfiniBandi adapterite ja kommutaatorite tootja.
B. Jõudlusprofiil
- Ülimadal latentsus: InfiniBand pakub järjepidevalt madalaimat latentsust. Adapteri latentsus võib olla nii madal kui 0,5 mikrosekundit ja kommutaatori pordist-porti latentsus on umbes 100 nanosekundit – oluliselt madalam kui võrreldavate Etherneti kommutaatorite 230 nanosekundit. Rakenduskihi tasemel suudab InfiniBand saavutada latentsuse kuni 2 mikrosekundit, võrreldes TCP/IP 50 mikrosekundiga.
- Suure läbilaskevõimega võimekus: InfiniBand toetab äärmiselt suuri andmeedastuskiirusi. Kaasaegsed versioonid nagu HDR ja NDR pakuvad kuni 200 Gbps ja 400 Gbps rea kohta. Agregeeritud lingid suudavad saavutada veelgi suurema läbilaskevõime, jõudes 800 Gbps-ni (NDR) ja isegi 1,6 Tbps-ni (XDR).
- Protsessori tõhusus: InfiniBandi peamine tugevus on selle võime pakkuda ülimadalat latentsust ja äärmiselt suurt ribalaiust peaaegu ilma protsessori koormuseta. See võrgu töötlemise koormuse vähendamine on oluline eelis arvutusmahukate töökoormuste jaoks.
- Jõudlus disaini järgi vs. jõudlus konfiguratsiooni järgi: InfiniBandi ja RoCE lähenemisviisidel on põhimõtteline erinevus. InfiniBand on algusest peale disainitud RDMA jaoks, kus selle füüsilised ja transpordikihid on loodud riistvarataseme usaldusväärsuse tagamiseks, sealhulgas loomupärane krediidipõhine algoritm kadudeta side jaoks. Seevastu RoCE töötab standardsel Ethernetil ja tugineb konfiguratsioonile, nagu prioriteetse voo juhtimise (PFC) ja otsese ummistusteate (ECN) funktsioonidele, et luua kadudeta võrk. See tähendab, et InfiniBand pakub garanteeritud kõrget jõudlust otse karbist välja võttes, samas kui RoCE jõudlus sõltub aluseks oleva Etherneti konfiguratsiooni kvaliteedist.
C. Taristu ja haldamine
- Pühendatud riistvara: InfiniBand nõuab spetsialiseeritud riistvara, sealhulgas pühendatud hostikanali adaptereid (HCA), kommutaatoreid, ruutereid ja patenteeritud kaableid. See toob tavaliselt kaasa suurema esialgse investeeringu võrreldes Etherneti-põhiste lahendustega.
- Tsentraliseeritud haldamine: InfiniBandi võrke haldab tsentraalne alamvõrgu haldur (SM), mis arvutab ja jaotab edastustabeleid ning haldab konfiguratsioone nagu partitsioonid ja teenusekvaliteet (QoS). See tsentraliseeritud lähenemine võib lihtsustada haldamist suurtes klastrites pärast esialgset seadistamist.
- Eriteadmised: InfiniBandi võrkude juurutamine ja hooldamine nõuab tavaliselt eriteadmisi, mis võivad suurendada tegevuskulusid ja tekitada IT-personali jaoks järsema õppimiskõvera.
- Ökosüsteem: InfiniBandi ökosüsteem on küps, kuid seda domineerib NVIDIA/Mellanox.
D. Peamised rakendused
InfiniBand on tööstusharu standard kõrgjõudlusega andmetöötluse (HPC) keskkondades ja on nende rakenduste jaoks kõige kiiremini kasvav ühendus. See on peamine tehnoloogia, mida soovitab IBTA. Selle ülimadal latentsus ja suur ribalaius on hädavajalikud nõudlike töökoormuste jaoks, nagu suuremahuliste tehisintellekti/masinõppe mudelite treenimine, suurandmete analüüs ja massiivsed andmebaasioperatsioonid. See on oluline ka suurte simulatsioonide (nt ilmaprognoosid) ja kõrgsageduslike finantsteenuste jaoks, kus kiirus ja andmete terviklikkus on kriitilise tähtsusega. 2022. aasta juuni seisuga kasutas InfiniBandi 62% maailma Top100 superarvutitest.
V. iWARP: RDMA üle standardse TCP/IP
iWARP (Internet Wide Area RDMA Protocol) on teine meetod RDMA rakendamiseks, mis on märkimisväärne oma standardse TCP/IP protokollistiku kasutamise poolest.
A. Arhitektuurilised põhimõtted
- RDMA üle TCP/IP: iWARP on protokoll, mis rakendab RDMA-d standardsetes IP-võrkudes. Erinevalt RoCE-st, mis kasutab UDP-d, on iWARP ehitatud usaldusväärsete transpordiprotokollide, nagu TCP ja SCTP, peale.
- Põhikomponendid: iWARP-i toimimine tugineb mitmele komponendile. Otseandmete paigutamise protokoll (DDP) võimaldab null-koopiaga edastust, paigutades andmed otse rakenduse mällu. Kaug-otsemälupöörduse protokoll (RDMAP) pakub teenuseid RDMA lugemis- ja kirjutamisoperatsioonideks. Spetsiifiline kohanduskiht, Marker PDU Aligned (MPA) raamimine, on vajalik DDP võimaldamiseks üle TCP.
- Usaldusväärsus: iWARP-i ainulaadne omadus on see, et selle usaldusväärsuse tagab aluseks olev TCP-protokoll. See erineb RoCE v2-st, mis kasutab UDP-d ja nõuab usaldusväärsuse tagamiseks väliseid mehhanisme, nagu andmekeskuse sildamine (DCB). Seetõttu toetab iWARP ainult usaldusväärset, ühendatud sidet.
B. Jõudlusprofiil
- Võrdlev latentsus ja läbilaskevõime: Kuigi iWARP-i latentsus on madalam kui traditsioonilisel TCP/IP-l, on selle jõudlus üldiselt halvem kui RoCE-l. 2011. aastal oli madalaim iWARP HCA latentsus 3 mikrosekundit, samas kui RoCE HCA-d jõudsid 1,3 mikrosekundini. Võrdlustestid näitavad järjepidevalt, et RoCE edastab sõnumeid palju kiiremini kui iWARP, läbilaskevõime on 40GbE juures üle 2 korra suurem ja 10GbE juures 5 korda suurem.
- Protsessori koormuse vähendamine: Nagu teisedki RDMA-protokollid, minimeerib iWARP protsessori koormust, võimaldades otsemälupöördumisi. See võib kasutada TCP koormuse vähendamise mootoreid (TOE) koos RDMA riistvaraga, et saavutada null-koopia tulemusi ja vähendada veelgi protsessori osalust.
C. Taristu ja haldamine
- Ühilduvus standardse Ethernetiga: iWARP-i suur eelis on selle võime töötada standardse Etherneti taristul minimaalsete muudatustega olemasolevas võrgus. See võimaldab organisatsioonidel ära kasutada oma olemasolevaid investeeringuid.
- Riistvara nõuded: Vaatamata ühilduvusele standardsete Etherneti kommutaatoritega, nõuab iWARP siiski iWARP-toega võrgukaarte lõpp-punktides.
- Integratsiooni aspektid: iWARP on integreeritud suurtesse operatsioonisüsteemidesse, nagu Microsoft Windows Server ja kaasaegsed Linuxi tuumad. See toetab rakendusi nagu SMB Direct, iSCSI laiendused RDMA jaoks (iSER) ja võrgufailisüsteem üle RDMA (NFS over RDMA).
- Haldamise väljakutsed: iWARP-liikluse haldamine võib olla keeruline. See jagab TCP pordiruumi, mis raskendab voogude haldamist ja muudab RDMA-liikluse tuvastamise raskeks. Üldiselt peetakse iWARP-i haldamist keerulisemaks kui RoCE-d.
D. Turu relevantsus
- Piiratud kasutuselevõtt: iWARP on „ebatavaline” või „vähem levinud” RDMA rakendus võrreldes InfiniBandi ja RoCE v2-ga. Selle lahendustel on olnud „piiratud edu” rakendamise ja juurutamise väljakutsete tõttu.
- TCP-sõltuvuse paradoks: iWARP-i disainivalik kihistada RDMA üle TCP pakub sisseehitatud usaldusväärsust ja ühilduvust, kuid paradoksaalselt takistab see tal täielikult saavutada RDMA põhilisi eeliseid. TCP-protokolli omane lisakoormus, isegi riistvaralise koormuse vähendamisega, näib hoidvat iWARP-i tagasi InfiniBandi või RoCE ülimadala latentsuse ja suure läbilaskevõime saavutamisest. See jõudluse kompromiss on viinud selle piiratud turuosa juurde.
VI. Võrdlev analüüs: RoCE v2 vs. InfiniBand vs. iWARP vs. standardne Ethernet
Jõudluse, taristu ja operatiivsete mõõdikute üksikasjalik võrdlus on võtmetähtsusega õige kõrgjõudlusega ühenduse valimisel.
A. Jõudluse võrdlustestid
Nende ühenduste jõudlus erineb oluliselt, eriti latentsuse, ribalaiuse ja protsessori kasutuse osas.
- Latentsus:
- InfiniBand: Pakub madalaimat latentsust. Kommutaatori pordist-porti latentsus on umbes 100 nanosekundit, samas kui adapteri latentsus on nii madal kui 0,5 kuni 1,3 mikrosekundit. Rakenduskihi latentsus võib olla kuni 2 mikrosekundit.
- RoCE v2: Pakub ülimadalat latentsust. Etherneti kommutaatori latentsus on umbes 230 nanosekundit, samas kui HCA latentsus võib olla nii madal kui 1,3 mikrosekundit. Rakenduskihi latentsus on tavaliselt umbes 5 mikrosekundit.
- iWARP: Omab kõrgemat latentsust kui RoCE, HCA latentsus on umbes 3 mikrosekundit (2011. aasta andmed). See toimib järjepidevalt halvemini kui RoCE.
- Standardne TCP/IP: Omab kõrgeimat latentsust, ühesuunaline latentsus on 10 kuni 55 millisekundit. Rakenduskihi latentsus on tavaliselt umbes 50 mikrosekundit.
- Ribalaius:
- InfiniBand: Toetab väga suurt ribalaiust. Kaasaegsed versioonid nagu NDR pakuvad kuni 400 Gbps pordi kohta ja XDR jõuab kuni 800 Gbps-ni. Tulevane GDR peaks jõudma 1,6 Tbps-ni.
- RoCE v2: Võimeline pakkuma suurt ribalaiust, toetades kuni 400 Gbps pordi kohta.
- iWARP: Üldiselt on madalam läbilaskevõime kui RoCE-l.
- Standardne TCP/IP: Läbilaskevõime on sageli piiratud protokolli lisakoormuse ja uuesti edastamistega, mis raskendab suure ribalaiusega linkide tõhusat kasutamist.
- Protsessori koormuse vähendamine:
- InfiniBand, RoCE v2, iWARP: Kõik kolm RDMA tehnoloogiat vähendavad oluliselt protsessori koormust, möödudes operatsioonisüsteemist, vabastades protsessori ressursse teiste ülesannete jaoks.
- Standardne TCP/IP: Põhjustab suurt protsessori koormust, kuna tuum on andmete töötlemisse tugevalt kaasatud.
- Kadudeta mehhanism:
- InfiniBand: Omab loomupärast, riistvaratasemel krediidipõhist voo juhtimist, mis tagab kadudeta side.
- RoCE v2: Tugineb kadudeta Etherneti konfiguratsioonile, kasutades andmekeskuse sildamise (DCB) funktsioone nagu PFC ja ECN. Samuti on sellel otsast-otsani usaldusväärne edastusmehhanism riistvaraliste uuesti edastamistega.
- iWARP: Kasutab TCP sisseehitatud usaldusväärset transporti andmete terviklikkuse tagamiseks.
- Standardne TCP/IP: Kasutab parima võimaliku edastuse mudelit, tuginedes kõrgematel kihtidel uuesti edastamistele usaldusväärsuse tagamiseks, mis lisab latentsust.
Järgnev tabel võtab kokku jõudluse omadused:
| Omadus | InfiniBand | RoCE v2 | iWARP | Standardne Ethernet/TCP/IP |
|---|---|---|---|---|
| Põhitehnoloogia | Loomupärane RDMA | RDMA üle Etherneti (UDP/IP) | RDMA üle Etherneti (TCP/IP) | Traditsiooniline kihiline protokoll |
| Tüüpiline rakenduse latentsus (µs) | 2 | 5 | >3 (2011 HCA) | 50 |
| Kommutaatori pordist-porti latentsus (ns) | 100 | 230 | Puudub (sõltub Ethernetist) | Tavaliselt kõrgem, varieeruv |
| Maksimaalne ribalaius (Gbps pordi/lingi kohta) | 400 (NDR), 800 (XDR), 1,6T (GDR) | 400 | Üldiselt madalam kui RoCE | 400+ (kuid piiratud protokolli lisakoormusega) |
| Protsessori lisakoormus | Peaaegu null | Väga madal | Madal | Kõrge |
| Kadudeta mehhanism | Loomupärane krediidipõhine voo juhtimine | Nõuab kadudeta Etherneti (PFC, ECN) | TCP usaldusväärne transport | Parim võimalik, tugineb uuesti edastamistele |
| Marsruutitavus (L2/L3) | L3 (alamvõrgu halduri kaudu) | L3 (marsruutitav RoCE) | L3 | L3 (standardne IP-marsruutimine) |
B. Taristu ja ökosüsteem
- Riistvara sõltuvused:
- InfiniBand: Nõuab täielikku spetsialiseeritud riistvara komplekti, sealhulgas InfiniBandi HCA-sid, kommutaatoreid ja patenteeritud kaableid.
- RoCE v2: Nõuab RoCE-toega HCA-sid, kuid töötab standardsete Etherneti kommutaatorite ja kaablitega, võimaldades integreerimist olemasolevatesse võrkudesse.
- iWARP: Nõuab iWARP-toega võrgukaarte, kuid võib kasutada standardseid Etherneti kommutaatoreid.
- Standardne Ethernet: Kasutab laialdaselt kättesaadavaid, odavaid Etherneti NIC-e ja kommutaatoreid.
- Tarnija lukustus:
- InfiniBand: Ökosüsteem on piiratud ja domineerib Mellanox (NVIDIA), mis võib tekitada muret tarnija lukustuse pärast.
- RoCE v2: Kasutab suurt ja konkurentsivõimelist Etherneti ökosüsteemi mitme tarnijaga. Mõned pakuvad „universaalseid RDMA” NIC-e, mis toetavad nii RoCE-d kui ka iWARP-i, vähendades lukustust.
- iWARP: Kasutab samuti laia Etherneti ökosüsteemi, toetusega tarnijatelt nagu Intel ja Chelsio.
- Koostalitlusvõime:
- InfiniBand: Kuna tegemist on patenteeritud standardiga, peavad kõik komponendid järgima IBTA spetsifikatsioone, et tagada nende koostöö.
- RoCE v2: Selle aluseks olev standardne Ethernet võimaldab laiemat koostalitlusvõimet ja lihtsamat integreerimist olemasolevatesse võrkudesse.
- iWARP: Põhineb standardsetel IETF RFC-del TCP/IP jaoks, tagades kõrge ühilduvuse standardsetes IP-võrkudes.
C. Kulutõhusus
- Esialgne investeering:
- InfiniBand: Nõuab tavaliselt suuremat esialgset investeeringut spetsialiseeritud riistvara ja litsentside tõttu. Suurte tehisintellekti klastrite puhul võivad InfiniBandi kommutaatorid olla oluliselt kallimad kui RoCE kommutaatorid.
- RoCE v2: Sageli on kulutõhusam variant, kuna see saab integreeruda olemasoleva Ethernetiga, vähendades uue riistvara kulusid. Säästud suurte tehisintellekti klastrite kommutaatoritelt võivad olla märkimisväärsed (49% kuni 70% võrreldes InfiniBandiga).
- iWARP: Kasutab standardseid Etherneti kommutaatoreid, kuid nõuab spetsialiseeritud adaptereid, mis võivad siiski olla märkimisväärne kulu.
- Standardne Ethernet: Üldiselt on madalaima kuluga variant oma odava riistvara tõttu.
- Kogukulu (TCO):
- InfiniBand: Kipub omama kõrgemat TCO-d spetsialiseeritud riistvara, hoolduse ja personali koolitamise vajaduse tõttu patenteeritud tehnoloogial.
- RoCE v2: Võib omada madalamat TCO-d, kuid see on tingimuslik. Kadudeta Etherneti võrgu konfigureerimise ja hooldamise keerukus võib oluliselt suurendada tegevuskulusid. Kuigi esialgsed riistvarakulud võivad olla madalamad, võivad disaini, tõrkeotsingu ja hoolduse jaoks vajalikud eriteadmised ja pingutused need säästud tühistada. Seetõttu sõltub „kulutõhusus” nii riistvara hinnast kui ka organisatsiooni asjatundlikkusest ja halduskoormusest.
- iWARP: Integratsiooni- ja haldusprobleemid võivad mõjutada selle üldist TCO-d.
Järgnev tabel annab võrdleva ülevaate taristu ja kulude kaalutlustest:
| Omadus | InfiniBand | RoCE v2 | iWARP | Standardne Ethernet/TCP/IP |
|---|---|---|---|---|
| Nõutav võrguriistvara | Pühendatud IB NIC-id, IB kommutaatorid, IB kaablid | RoCE-toega NIC-id, standard Etherneti kommutaatorid/kaablid | iWARP-toega NIC-id, standard Etherneti kommutaatorid/kaablid | Standard Etherneti NIC-id, Etherneti kommutaatorid/kaablid |
| Võrgu ühilduvus | Patenteeritud (IBTA standard) | Standardne Ethernet (IEEE) | Standardne Ethernet (IETF RFC-d) | Standardne Ethernet (IEEE) |
| Haldamise keerukus | Raske (spetsialiseeritud SM) | Raske (kadudeta Etherneti konfig.) | Raskem kui RoCE | Lihtne |
| Esialgne riistvara kulu (suhteline) | Kõrge | Mõõdukas (kasutab olemasolevat) | Mõõdukas (spetsialiseeritud NIC-id) | Madal |
| Kogukulu (suhteline) | Kõrgem | Madalam (tingimusel, et on olemas haldusoskus) | Varieeruv (integratsiooniprobleemid) | Madalaim |
| Tarnijate ökosüsteem | Piiratud (NVIDIA/Mellanox domineerib) | Lai (mitu Etherneti tarnijat) | Lai (mitu Etherneti tarnijat) | Väga lai |
D. Skaleeritavus ja paindlikkus
- Marsruutimisvõimalused:
- InfiniBand: Kasutab kommuteeritud ühendusvõrku, kus marsruutimist haldab tsentraalselt alamvõrgu haldur (SM). See on väga skaleeritav, toetades klastreid üle 100 000 sõlmega.
- RoCE v2: Selle UDP/IP kapseldamine võimaldab seda marsruutida üle 3. kihi IP-võrkude, muutes selle skaleeritavaks suurtes võrkudes ja pilvekeskkondades. Samuti toetab see ECMP-d tõhusaks koormuse tasakaalustamiseks.
- iWARP: On marsruutitav üle IP-võrkude.
- Standardne Ethernet: Väga skaleeritav ja paindlik, kuid võib vajada HPC-taseme tõhususe saavutamiseks täiustatud konfiguratsioone, nagu selgroog-leht (spine-leaf) arhitektuurid.
- Võrgutopoloogiad:
- InfiniBand: Optimeeritud HPC/AI klastrite jaoks, toetades kõrgjõudlusega topoloogiaid nagu Fat Tree, Dragonfly+ ja mitmemõõtmeline Torus.
- RoCE v2: Selle IP-põhine marsruutimine muudab selle kohandatavaks peaaegu igale võrgutopoloogiale.
- Standardne Ethernet: Toetab laia valikut topoloogiaid, sealhulgas tähe- ja võrktopoloogiat.
E. Usaldusväärsus ja ummistuste kontroll
- Usaldusväärsus:
- InfiniBand: Pakub loomupärast, riistvaratasemel usaldusväärsust oma krediidipõhise voo juhtimisega, tagades kadudeta side.
- RoCE v2: Tugineb kadudeta Etherneti konfiguratsioonile, kasutades PFC-d ja ETS-i. Samuti sisaldab see otsast-otsani usaldusväärset edastusmehhanismi riistvarapõhise pakettide uuesti edastamisega.
- iWARP: Kasutab TCP-le omast usaldusväärsust, mis pakub vigade parandamist ja uuesti edastamisi.
- Standardne TCP/IP: Keskendub usaldusväärsusele uuesti edastamiste kaudu, mis võib lisada märkimisväärset latentsust ja vähendada läbilaskevõimet.
- Ummistuste kontroll:
- InfiniBand: Määratleb oma ummistuste kontrolli mehhanismid, mis põhinevad FECN/BECN märgistusel.
- RoCE v2: Rakendab ummistuste kontrolli protokolli, kasutades IP ECN bitte ja ummistusteate pakette (CNP). Kasutatakse ka tööstuse praktikaid nagu DCQCN.
- iWARP: Tugineb TCP väljakujunenud ummistuste kontrolli algoritmidele.
F. Rakenduse sobivus
- InfiniBand: Ideaalne valik keskkondadele, mis vajavad suurimat andmete läbilaskevõimet ja madalaimat latentsust. See hõlmab teadusuuringuid, finantsmodelleerimist, suuremahulisi HPC-klastreid ja kõige nõudlikumaid AI/ML treeningkoormusi.
- RoCE v2: Eelistatud ettevõtete poolt, kes soovivad kasutada olemasolevat Etherneti taristut, kuid vajavad siiski suurt jõudlust. See sobib hästi salvestusvõrkude, reaalajas analüütika ja pilveteenuste jaoks, pakkudes tasakaalu jõudluse ja kulude vahel.
- iWARP: Võib kaaluda niširakenduste jaoks, kus olemasolev TCP/IP taristu on range nõue ja ülimadal latentsus ei ole esmatähtis. See sobib rakendustele nagu NVMeoF, iSER, SMB Direct ja NFS over RDMA või odava variandina testimiskeskkondades.
- Standardne Ethernet/TCP/IP: Jääb parimaks valikuks üldotstarbelise võrgunduse jaoks, nagu ettevõtete LAN-id ja pilvetaristu, kus äärmuslik HPC/AI jõudlus ei ole peamine eesmärk.
- Jõudluse-kulu-keerukuse trilemma: See analüüs näitab ühenduse valimisel põhimõttelist kompromissi: trilemma jõudluse, kulude ja keerukuse vahel. InfiniBand pakub tippjõudlust ja loomupärast usaldusväärsust, kuid kõrgema hinnaga. RoCE v2 pakub peaaegu InfiniBandi-laadset jõudlust Ethernetil, potentsiaalselt vähendades riistvarakulusid, kuid lisades olulist konfiguratsioonikeerukust. iWARP pakub RDMA-d üle TCP, kuid madalama jõudlusega. Standardne Ethernet on kulutõhus, kuid puudub nõudlike töökoormuste jaoks vajalik jõudlus. Ühtset „parimat” lahendust ei ole; õige valik nõuab nende kolme teguri tasakaalustamist vastavalt konkreetsetele vajadustele ja võimekusele.
Järgnev tabel kirjeldab iga tehnoloogia rakenduse sobivust:
| Tehnoloogia | Peamised kasutusjuhud | Sobib kõige paremini | Vähem sobiv |
|---|---|---|---|
| InfiniBand | HPC, AI/ML treening, suurandmete analüüs, finantsteenused (arbitraaž) | Keskkonnad, mis nõuavad absoluutselt madalaimat latentsust, suurimat ribalaiust ja loomupäraseid kadudeta garantiisid | Kulutundlik üldotstarbeline ettevõtte võrgundus, keskkonnad ilma spetsialiseeritud IT-ekspertiisita |
| RoCE v2 | Andmekeskused, pilveteenused, salvestusvõrgud, reaalajas analüüs, AI/ML järeldamine | Organisatsioonid, mis kasutavad olemasolevat Etherneti taristut suure jõudluse saavutamiseks; kulude ja jõudluse tasakaal | Keskkonnad, kus loomupärased kadudeta garantiid on vältimatud ilma ulatusliku konfiguratsiooniekspertiisita |
| iWARP | NVMeoF, iSER, SMB Direct, NFS over RDMA, test-/arenduskeskkonnad | Spetsiifilised rakendused, mis nõuavad RDMA-d olemasoleva TCP/IP kaudu, kus absoluutne tippjõudlus ei ole kriitiline | Suuremahulised HPC/AI klastrid, latentsustundlikud reaalajas rakendused |
| Standardne Ethernet/TCP/IP | Üldotstarbeline ettevõtte võrgundus, LAN-id, internetiühendus, pilvetaristu | Kõikjalolev, kulutõhus ja paindlik üldotstarbeline võrgundus | Kõrgjõudlusega andmetöötlus, AI/ML treening ja muud latentsustundlikud, protsessorimahukad töökoormused |
VII. Esilekerkivad kõrgjõudlusega ühendused ja tulevikutrendid
Kõrgjõudlusega võrgunduse maastik on pidevas muutumises, mida ajendavad andmemahukad töökoormused ja vajadus suurema tõhususe järele. Lisaks väljakujunenud RDMA tehnoloogiatele kujundavad andmekeskuste tulevikku uued ühendused ja trendid.
A. Compute Express Link (CXL)
CXL on kaasaegne ühendus, mis on ehitatud PCIe füüsilisele kihile ja on mõeldud üldiste andmetöötlussüsteemide jaoks. Selle peamine eesmärk on võimaldada kiiret ja sujuvat sidet protsessorite ja kiirendite, nagu GPU-d ja FPGA-d, vahel.
CXL-i peamised omadused hõlmavad kiiret andmeedastust, laialdast ühilduvust ja tõhusat mälu jagamist vahemälu sidususe kaudu. See toetab kolme tüüpi seadmeid (kiirendite, vahemälu-sidusate seadmete ja mälulaiendite jaoks) ning paindlikke topoloogiaid. CXL/PCIe Gen5 pakub maksimaalset läbilaskevõimet 512 Gbps latentsusega umbes 500 nanosekundit. Kuigi InfiniBandil on madalam latentsus (umbes 100 nanosekundit), on CXL parem madala latentsusega mälupöörduseks, kus vahemälu sidusus on kriitilise tähtsusega.
Oluline areng oli Gen-Z ja CXL konsortsiumide ühinemine 2022. aastal, mis positsioneerib CXL-i ainsa tööstusstandardina selles mälukesksete ühenduste klassis.
CXL esindab nihet traditsiooniliselt sõlmedevaheliselt võrgunduselt (nagu RoCE ja InfiniBand) mälu sidususe ja ressursside lahtisidumise suunas. See tähendab, et teatud töökoormuste jaoks võib CXL saada peamiseks ühenduseks, täiendades või vähendades vajadust traditsiooniliste võrguühenduste järele.
B. NVLink
NVLink on NVIDIA patenteeritud suure ribalaiusega, madala latentsusega ühendus, mis on loodud otseseks GPU-GPU ja GPU-CPU sideks selle kiirendatud andmetöötlusplatvormidel.
NVLink on NVIDIA tehisintellekti ja HPC lahenduste, nagu GB200 ja GB300 arhitektuurid, oluline osa. See on kriitilise tähtsusega tehisintellekti mudelite treeningu skaleerimiseks, pakkudes äärmiselt kiiret andmeedastust GPU-de vahel.
NVLink näitab suundumust vertikaalse integratsiooni ja spetsialiseeritud jõudluse suunas. Selle patenteeritud olemus vastandub avatud standarditele nagu RoCE või InfiniBand. See disain maksimeerib jõudlust ühe tarnija riistvarapaki piires. Kui InfiniBand ja RoCE tegelevad üldise võrgundusega sõlmede vahel, optimeerib NVLink sidet GPU-süsteemide sees ja vahel, luues mitmetasandilise ühendusarhitektuuri, kus erinevad tehnoloogiad teenivad erinevaid vajadusi.
C. Tuleviku Etherneti kiirused
Ethernet on arenenud 10 Mbps-lt 400 Gbps-ni ning areng jätkub 800GbE ja 1,6TbE standarditega silmapiiril. Need suuremad kiirused on hädavajalikud järgmise põlvkonna rakenduste jaoks, nagu kvantarvutid, arenenud tehisintellekt ja kaasahaaravad tehnoloogiad.
Etherneti kiiruste pidev kasv toob otsest kasu RoCE-le. Kuna RoCE on ehitatud Ethernetile, saab see nendest edusammudest automaatselt kasu, aidates tal püsida konkurentsivõimelisena InfiniBandiga. Pilveteenuste kasv soodustab juba 200GbE ja 400GbE kasutuselevõttu, millele järgnevad 800GbE ja 1,6TbE.
Etherneti ja RoCE jätkuv asjakohasus on tihedalt seotud. Kuna Etherneti kiirused arenevad, muutub RoCE veelgi tugevamaks konkurendiks kõrgjõudlusega andmekeskustes, eriti organisatsioonidele, kes soovivad ära kasutada oma olemasolevaid Etherneti investeeringuid ja vältida patenteeritud ökosüsteeme.
D. Lahtisidestatud andmetöötlus ja fotoonika
- Lahtisidestatud andmetöötlus: See uus lähenemisviis püüab parandada andmekeskuse tõhusust, lahutades ressursid nagu arvutusvõimsus, salvestusruum ja mälu traditsioonilistest serveritest. Need ressursid koondatakse seejärel paindlikeks kogumiteks, mis on ühendatud täiustatud võrgundusega. Peamine tulemus on see, et side, mis kunagi toimus serveri sees, toimub nüüd üle võrgu, suurendades dramaatiliselt koormust ja muutes ülimadala latentsuse kriitiliseks. See suundumus tugevdab vajadust kõrgjõudlusega ühenduste, nagu RoCE ja InfiniBand, järele ning ajendab uute, nagu CXL, arendamist.
- Fotoonika andmekeskuse võrgunduses: Ränifotoonika integreerib optilised komponendid ränikiipidele, võimaldades kiireid ja madala energiatarbega optilisi ühendusi. See tehnoloogia pakub palju kiiremaid andmeedastuskiirusi (üle 100 Gbps), madalamat latentsust ja paremat energiatõhusust kui traditsiooniline vask. See on muutumas hädavajalikuks andmekeskuste kasvavate liiklusnõudmiste rahuldamiseks ja järgmise põlvkonna kiire Etherneti võimaldamiseks.
Nende suundumuste vaheline seos on sümbiootiline. Lahtisidestatud arhitektuurid nõuavad täiustatud võrgundust, mida pakuvad ühendused nagu RoCE, InfiniBand ja CXL. Omakorda sõltub nende ühenduste jaoks vajalike kiiruste saavutamine, eriti tulevaste 800GbE ja 1,6TbE standardite puhul, tehnoloogiatest nagu ränifotoonika.
VIII. Soovitused ja kokkuvõte
Kõrgjõudlusega ühenduse valimine on kriitiline strateegiline otsus, mis peab olema kooskõlas organisatsiooni konkreetsete vajaduste, eelarve, taristu ja pikaajalise visiooniga.
- Maksimaalse toorjõudluse ja missioonikriitilise HPC/AI jaoks: InfiniBand on selge kullastandard. Selle loomupärane RDMA, krediidipõhine voo juhtimine ja spetsiaalselt loodud disain tagavad madalaima latentsuse ja suurima läbilaskevõime koos garanteeritud kadudeta jõudlusega. Organisatsioonid, kellel on eelarve ja asjatundlikkus, peaksid valima InfiniBandi suuremahuliste klastrite jaoks, kus iga mikrosekund loeb.
- Kõrge jõudluse, kulutõhususe ja Etherneti integratsiooni jaoks: RoCE v2 on tugev ja üha populaarsem alternatiiv. See pakub suurt jõudluse kasvu võrreldes TCP/IP-ga ja võib läheneda InfiniBandi jõudlusele, kasutades olemasolevat Etherneti taristut. See on ideaalne organisatsioonidele, kes uuendavad oma andmekeskusi ilma täieliku ümberehituseta. Siiski nõuab see valik pühendumist kadudeta Etherneti võrgu hoolikale konfigureerimisele ja haldamisele.
- Niširakenduste või pärand-RDMA üle TCP keskkondade jaoks: iWARP võib sobida konkreetsetel juhtudel, eriti kui olemasoleva TCP/IP taristu kasutamine on kohustuslik ja tippjõudlus ei ole peamine eesmärk. Siiski piirab selle madalam jõudlus ja suurem halduskeerukus selle kasutamist kaasaegsetes kõrgjõudlusega juurutustes.
- Üldotstarbelise võrgunduse jaoks: Standardne Ethernet/TCP/IP jääb kõige levinumaks ja kulutõhusamaks valikuks keskkondades, kus puuduvad äärmuslikud jõudlusnõuded. Selle kasutuslihtsus ja odav riistvara muudavad selle ideaalseks üldiste ettevõttevõrkude, LAN-ide ja standardse pilvetaristu jaoks.
- Tulevikukindluse tagamiseks esilekerkivate tehnoloogiate kaalumine: Organisatsioonid peaksid jälgima CXL-i arengut mälukesksete ja lahtisidestatud arhitektuuride jaoks, kuna see täiendab traditsioonilisi võrguühendusi, optimeerides ressursside koondamist. Samamoodi on NVLink kriitiline side optimeerimiseks NVIDIA GPU-mahukates süsteemides. Need tehnoloogiad näitavad ühenduste mitmekesistumist erinevate andmetöötlushierarhia kihtide jaoks. Lisaks jätkavad 800GbE ja 1,6TbE Etherneti areng koos fotoonika edusammudega RoCE veelgi võimsamaks valikuks muutmist.
Kokkuvõtteks võib öelda, et kõrgjõudlusega võrgundus on keeruline, mida ajendavad tehisintellekti, HPC ja lahtisidestatud andmetöötluse suunas liikumise nõudmised. Kuigi InfiniBand on spetsialiseeritud keskkondades absoluutse jõudluse liider, pakub RoCE v2 võimsat ja paindlikku alternatiivi, mis ühendab RDMA eelised Etherneti kõikjalolekuga. CXL-i ja NVLink-i esilekerkimine viitab ühenduste strateegilisele mitmekesistamisele, optimeerides erinevaid sidekihte. Optimaalne lahendus on alati strateegiline tasakaal jõudlusnõuete, kulude, olemasoleva taristu ja tulevikku suunatud visiooni vahel.




