NVIDIA, Microsoft și OpenAI promovează MRC pe rețeaua Spectrum-X Ethernet - specificația protocolului RDMA a fost publicată ca standard deschis în Open Compute Project

11 mai 2026, 12:08

Infrastructură avansată pentru antrenarea AI cu tehnologie de rețea eficientă.

TLDRPe scurt:

01NVIDIA, Microsoft și OpenAI au deschis standardul MRC pentru a îmbunătăți rețelele de antrenare AI.
02MRC reduce blocajele prin rutare pe mai multe căi și recuperare rapidă a pierderilor de pachete.
03Protocolul RDMA permite transferuri de date cu latență mică, îmbunătățind eficiența rețelelor.
04MRC asigură o utilizare mai bună a GPU-urilor și minimizează timpii morți în antrenamentele lungi.

NVIDIA și partenerii săi au deschis ca standard MRC, un protocol care crește reziliența rețelelor pentru antrenarea AI la scară foarte mare, după ce a fost folosit în producție pe infrastructura Spectrum‑X, potrivit NVIDIA. Miza este una operațională: în clustere cu mii de GPU-uri, întreruperile sau congestia de rețea pot încetini ori opri antrenări lungi și costisitoare, iar MRC este proiectat să reducă aceste blocaje prin rutare pe mai multe căi și recuperare rapidă la pierderi de pachete.

Ce este MRC și de ce contează pentru „fabricile” de AI

MRC (Multipath Reliable Connection) este descris ca un protocol de transport RDMA (Remote Direct Memory Access – tehnologie care permite transferuri de date cu latență mică, ocolind o parte din procesarea clasică a sistemului de operare). Concret, MRC permite ca o singură conexiune RDMA să distribuie traficul pe mai multe rute din rețea, cu efecte urmărite direct în exploatare:

creșterea debitului (throughput) prin folosirea simultană a mai multor căi;
echilibrarea încărcării (load balancing) pentru a evita „punctele fierbinți”;
disponibilitate mai bună, prin ocolirea automată a segmentelor cu probleme.

NVIDIA susține că MRC ajută la menținerea unui nivel ridicat de utilizare a GPU-urilor, tocmai prin faptul că „ține” lățimea de bandă necesară pe durata antrenării și reduce timpii morți generați de problemele de rețea.

Cum funcționează reziliența: rerutare în microsecunde și retransmisie „inteligentă”

În arhitectura descrisă, MRC folosește mecanisme care vizează două tipuri de incidente frecvente la scară mare: congestia și pierderile de date.

Pe congestie, protocolul ar evita dinamic rutele supraîncărcate „în timp real”, pentru a susține lățime de bandă ridicată chiar și când rețeaua este aglomerată. La pierderi de date, NVIDIA indică o retransmisie „rapidă și precisă”, menită să limiteze efectul întreruperilor scurte asupra joburilor de lungă durată.

Un element cheie este „failure bypass”: tehnologia ar detecta o cădere de rută și ar reruta traficul automat, în hardware, „în doar microsecunde” — un detaliu relevant pentru antrenarea distribuită, unde sincronizarea între mii de GPU-uri este sensibilă la întreruperi.

Cine îl folosește și cum ajunge un standard deschis

NVIDIA indică drept utilizatori ai Spectrum‑X Ethernet (în acest context) OpenAI, Microsoft și Oracle. În plus, compania afirmă că centrele de date Microsoft Fairwater și Oracle Cloud Infrastructure (OCI) Abilene se bazează pe MRC pentru cerințe de performanță, scalare și eficiență.

Un punct cu impact de industrie este că MRC, după utilizarea în producție cu performanță optimizată pe hardware Spectrum‑X, a fost „lansat ca specificație deschisă” prin Open Compute Project (OCP) — o mișcare care, în mod tipic, facilitează adoptarea mai largă și interoperabilitatea între furnizori.

NVIDIA mai precizează că a colaborat la dezvoltarea MRC cu AMD, Broadcom, Intel, Microsoft și OpenAI.

„Implementarea MRC în generația Blackwell a avut mult succes și a fost posibilă datorită unei colaborări puternice cu NVIDIA”, a declarat Sachin Katti, șeful diviziei de industrial compute la OpenAI. „Abordarea end‑to‑end a MRC ne-a permis să evităm o mare parte din încetinirile și întreruperile tipice legate de rețea și să menținem eficiența antrenărilor de frontieră la scară.”

Implicația practică: flexibilitate de transport RDMA pe aceeași infrastructură

Pe Spectrum‑X Ethernet, clienții ar avea opțiuni de modele de transport RDMA: atât Adaptive RDMA, cât și MRC, plus alte protocoale personalizate, care rulează nativ pe NVIDIA ConnectX SuperNICs și switch-urile Spectrum‑X și susțin designuri de rețea „multiplanar”.

În această arhitectură, o rețea multiplanară înseamnă mai multe „plane” (fabrice) independente, fiecare oferind rute alternative între GPU-uri. NVIDIA afirmă că funcția Spectrum‑X Multiplane adaugă echilibrare de sarcină accelerată în hardware între plane, pentru reziliență și scalare, menținând latențe predictibile și permițând extinderea la „sute de mii de GPU-uri”.

Pentru piață, mesajul operațional este că, pe măsură ce infrastructura de antrenare AI crește, diferențiatorul nu mai este doar viteza brută, ci capacitatea rețelei de a evita congestia și de a „supraviețui” defectelor fără a opri joburile — iar standardizarea deschisă a MRC urmărește să transforme aceste mecanisme într-o practică mai ușor de adoptat la scară.

Tag-uri:nvidia oracle microsoft mrc openai open compute project spectrum-x

AutorEdi Claw

Sursăblogs.nvidia.com

NVIDIA, Microsoft și OpenAI promovează MRC pe rețeaua Spectrum-X Ethernet - specificația protocolului RDMA a fost publicată ca standard deschis în Open Compute Project

Ce este MRC și de ce contează pentru „fabricile” de AI

Cum funcționează reziliența: rerutare în microsecunde și retransmisie „inteligentă”

Cine îl folosește și cum ajunge un standard deschis

Implicația practică: flexibilitate de transport RDMA pe aceeași infrastructură

Articole pe același subiect

OpenAI trece Codex pe GPT-5.5 rulat pe sisteme NVIDIA GB200 NVL72 - NVIDIA spune că peste 10.000 de angajați îl folosesc deja intern

Jensen Huang (NVIDIA) afirmă că AI va transforma toate industriile - cere reguli clare pentru dezvoltare responsabilă

Meta își taie costurile cu personalul pentru a finanța investițiile în AI - cheltuieli de capital estimate la 125-145 mld. dolari în 2026

Apple reduce investițiile în infrastructura AI și preferă parteneriate cu OpenAI și Google - rivalii ar urma să cheltuiască circa 700 mld. dolari într-un an

OpenAI introduce ChatGPT for Intune pe iOS - versiune pentru companii și școli, cu administrare centralizată prin Microsoft Intune

Google, Microsoft și xAI acceptă testarea guvernamentală a modelelor AI înainte de lansare în SUA - evaluări CAISI pe riscuri de securitate cibernetică și biosecuritate