Inteligență artificială01 iun. 2026
NVIDIA lansează Cosmos 3, un model open pentru „physical AI” - promite să reducă ciclurile de antrenare și evaluare de la luni la zile
NVIDIA deschide accesul la Cosmos 3 , un model „foundation” pentru AI fizic, cu promisiunea de a scurta antrenarea de la luni la zile , potrivit NVIDIA News . Miza operațională este reducerea timpului și a costurilor de dezvoltare pentru roboți, vehicule autonome și agenți vizuali, printr-un model care combină raționarea, simularea lumii și generarea de acțiuni într-un singur sistem. Cosmos 3 este prezentat ca un „omnimodel” complet deschis, cu raționare vizuală nativă și generare multimodală (text, imagine, video, sunet ambiental și acțiuni). NVIDIA susține că această abordare, împreună cu „acuratețe fizică” ridicată, poate comprima ciclurile de antrenare și evaluare pentru aplicații de AI fizic de la luni la zile. Ce schimbă pentru dezvoltarea de roboți și vehicule autonome NVIDIA poziționează Cosmos 3 ca răspuns la o problemă structurală în AI fizic: generalizarea în lumea reală cu date limitate și cu „stive” de simulare fragmentate. Modelul folosește o arhitectură „mixture-of-transformers” (un ansamblu de transformere specializate), care combină un transformer de raționare cu unul „expert” de generare, pentru a înțelege interacțiuni între obiecte, mișcare și relații spațio-temporale înainte de a genera video și traiectorii de acțiune. Modelul a fost antrenat pe un set multimodal descris ca fiind „unul dintre cele mai mari” pentru AI fizic, cu „miliarde de eșantioane” din text, imagini, video, sunet și traiectorii de acțiune. Argumentul companiei este că această bază pre-antrenată reduce nevoia de date suplimentare și costurile de antrenare pentru echipele care construiesc sisteme de AI fizic. Cum poate fi folosit Cosmos 3 NVIDIA indică trei utilizări principale pentru dezvoltatori: model „vision-language” (model care înțelege și raționează pe mai multe tipuri de date, inclusiv imagine și text); „world model” / model video care simulează medii fizice și prezice stări viitoare ale lumii pentru antrenare și evaluare; „backbone” (coloană vertebrală) pentru „world action models”, folosite la antrenarea roboților pentru sarcini specifice. Compania afirmă că, între modelele deschise, Cosmos 3 se clasează pe primul loc în mai multe benchmark-uri și clasamente, inclusiv Artificial Analysis , Physics-IQ , PAI-Bench și R-Bench , pe dimensiuni precum acuratețea generării „lumii” și politici de acțiune. Portofoliu și disponibilitate: Super, Nano și Edge NVIDIA anunță trei variante: Cosmos 3 Super, pentru modele de robotică și vehicule autonome care au nevoie de acuratețe fizică și calitate maximă a generării; Cosmos 3 Nano, pentru raționare video și de acțiune „în fracțiuni de secundă”; Cosmos 3 Edge, „în curând”, pentru inferență în timp real la marginea rețelei (edge). Cosmos 3 Super și Cosmos 3 Nano sunt disponibile acum, iar Cosmos 3 Edge urmează să fie lansat ulterior. Potrivit companiei, dezvoltatorii pot testa Cosmos 3 pe build.nvidia.com, pot descărca modelele deschise de pe Hugging Face, le pot personaliza și pot genera date sintetice cu Hugging Face Diffusers și resurse pe GitHub, iar pentru implementare sunt oferite și ca microservicii NVIDIA NIM. Coaliție pentru „modele de lume” deschise și infrastructură de antrenare În paralel, NVIDIA lansează NVIDIA Cosmos Coalition, o colaborare globală între dezvoltatori de „world models”, laboratoare AI și jucători din robotică, cu membri fondatori precum Agile Robots , Black Forest Labs, Generalist, LTX, Runway și Skild AI. Coaliția urmărește contribuții comune de modele, cercetare și tehnici de evaluare, folosind tehnologii Cosmos, instrumente de antrenare și infrastructură NVIDIA DGX Cloud pentru antrenare la scară mare. NVIDIA mai spune că platforma Cosmos include seturi noi de date (robotică, fizică, mișcare umană, condus autonom, siguranță în depozite și raționare spațială) și „abilități” pentru agenți de AI fizic, precum reconstrucția neurală a scenelor, generarea de imagini cu defecte și augmentarea video. În lista de utilizatori menționați apar companii din robotică, vehicule autonome și agenți vizuali pentru aplicații industriale și „smart spaces”. „Big bang-ul AI-ului fizic este chiar după colț datorită progreselor în raționare multimodală, limbaj, viziune și modele ale lumii”, a declarat Jensen Huang , fondator și CEO NVIDIA. Pentru companii, semnalul principal este că NVIDIA încearcă să standardizeze și să accelereze fluxurile de lucru pentru AI fizic printr-un model deschis și un ecosistem de instrumente, distribuție și infrastructură. Rămâne de văzut cât de repede se va traduce promisiunea „luni la zile” în productivitate măsurabilă în proiecte comerciale, mai ales pe măsură ce varianta Edge va deveni disponibilă pentru inferență în timp real. [...]