Inteligență artificială11 mai 2026
NVIDIA, Microsoft și OpenAI promovează MRC pe rețeaua Spectrum-X Ethernet - specificația protocolului RDMA a fost publicată ca standard deschis în Open Compute Project
NVIDIA și partenerii săi au deschis ca standard MRC, un protocol care crește reziliența rețelelor pentru antrenarea AI la scară foarte mare , după ce a fost folosit în producție pe infrastructura Spectrum‑X, potrivit NVIDIA . Miza este una operațională: în clustere cu mii de GPU-uri, întreruperile sau congestia de rețea pot încetini ori opri antrenări lungi și costisitoare, iar MRC este proiectat să reducă aceste blocaje prin rutare pe mai multe căi și recuperare rapidă la pierderi de pachete. Ce este MRC și de ce contează pentru „fabricile” de AI MRC (Multipath Reliable Connection) este descris ca un protocol de transport RDMA (Remote Direct Memory Access – tehnologie care permite transferuri de date cu latență mică, ocolind o parte din procesarea clasică a sistemului de operare). Concret, MRC permite ca o singură conexiune RDMA să distribuie traficul pe mai multe rute din rețea, cu efecte urmărite direct în exploatare: creșterea debitului (throughput) prin folosirea simultană a mai multor căi; echilibrarea încărcării (load balancing) pentru a evita „punctele fierbinți”; disponibilitate mai bună, prin ocolirea automată a segmentelor cu probleme. NVIDIA susține că MRC ajută la menținerea unui nivel ridicat de utilizare a GPU-urilor, tocmai prin faptul că „ține” lățimea de bandă necesară pe durata antrenării și reduce timpii morți generați de problemele de rețea. Cum funcționează reziliența: rerutare în microsecunde și retransmisie „inteligentă” În arhitectura descrisă, MRC folosește mecanisme care vizează două tipuri de incidente frecvente la scară mare: congestia și pierderile de date. Pe congestie, protocolul ar evita dinamic rutele supraîncărcate „în timp real”, pentru a susține lățime de bandă ridicată chiar și când rețeaua este aglomerată. La pierderi de date, NVIDIA indică o retransmisie „rapidă și precisă”, menită să limiteze efectul întreruperilor scurte asupra joburilor de lungă durată. Un element cheie este „failure bypass”: tehnologia ar detecta o cădere de rută și ar reruta traficul automat, în hardware, „în doar microsecunde” — un detaliu relevant pentru antrenarea distribuită, unde sincronizarea între mii de GPU-uri este sensibilă la întreruperi. Cine îl folosește și cum ajunge un standard deschis NVIDIA indică drept utilizatori ai Spectrum‑X Ethernet (în acest context) OpenAI, Microsoft și Oracle. În plus, compania afirmă că centrele de date Microsoft Fairwater și Oracle Cloud Infrastructure (OCI) Abilene se bazează pe MRC pentru cerințe de performanță, scalare și eficiență. Un punct cu impact de industrie este că MRC, după utilizarea în producție cu performanță optimizată pe hardware Spectrum‑X, a fost „lansat ca specificație deschisă” prin Open Compute Project (OCP) — o mișcare care, în mod tipic, facilitează adoptarea mai largă și interoperabilitatea între furnizori. NVIDIA mai precizează că a colaborat la dezvoltarea MRC cu AMD, Broadcom, Intel, Microsoft și OpenAI. „Implementarea MRC în generația Blackwell a avut mult succes și a fost posibilă datorită unei colaborări puternice cu NVIDIA”, a declarat Sachin Katti, șeful diviziei de industrial compute la OpenAI. „Abordarea end‑to‑end a MRC ne-a permis să evităm o mare parte din încetinirile și întreruperile tipice legate de rețea și să menținem eficiența antrenărilor de frontieră la scară.” Implicația practică: flexibilitate de transport RDMA pe aceeași infrastructură Pe Spectrum‑X Ethernet, clienții ar avea opțiuni de modele de transport RDMA: atât Adaptive RDMA, cât și MRC, plus alte protocoale personalizate, care rulează nativ pe NVIDIA ConnectX SuperNICs și switch-urile Spectrum‑X și susțin designuri de rețea „multiplanar”. În această arhitectură, o rețea multiplanară înseamnă mai multe „plane” (fabrice) independente, fiecare oferind rute alternative între GPU-uri. NVIDIA afirmă că funcția Spectrum‑X Multiplane adaugă echilibrare de sarcină accelerată în hardware între plane, pentru reziliență și scalare, menținând latențe predictibile și permițând extinderea la „sute de mii de GPU-uri”. Pentru piață, mesajul operațional este că, pe măsură ce infrastructura de antrenare AI crește, diferențiatorul nu mai este doar viteza brută, ci capacitatea rețelei de a evita congestia și de a „supraviețui” defectelor fără a opri joburile — iar standardizarea deschisă a MRC urmărește să transforme aceste mecanisme într-o practică mai ușor de adoptat la scară. [...]