Inteligență artificială04 iun. 2026
NVIDIA publică pe GitHub „agent skills” pentru cercetarea în physical AI - fluxuri automate pentru simulare și date sintetice în vehicule autonome, robotică și Vision AI
NVIDIA pune la dispoziția cercetătorilor „skill-uri” pentru agenți AI, ca să reducă timpul și fragmentarea din fluxurile de lucru pentru vehicule autonome, roboți și sisteme de viziune. Potrivit NVIDIA , la CVPR compania a prezentat un set de „physical AI agent skills” (capabilități reutilizabile pentru agenți software care automatizează pași de cercetare) menite să lege într-un flux unitar etape care, în mod obișnuit, sunt împărțite între instrumente diferite: reconstrucția scenelor, generarea de scenarii rare, antrenarea politicilor, evaluarea comportamentului și iterarea rapidă. De ce contează: cercetarea „physical AI” e încetinită de integrare, nu doar de modele Mesajul central este operațional: problema majoră în „physical AI” (AI care interacționează cu lumea fizică prin percepție și acțiune) nu este doar obținerea unor modele mai puternice, ci construirea unui flux complet în jurul lor. NVIDIA susține că noile skill-uri, împreună cu biblioteci și cadre de simulare, urmăresc să reducă munca de „cusut” instrumente și să accelereze experimentarea. În acest context, compania amintește și anunțul din această săptămână privind NVIDIA Cosmos 3 , descris ca un „foundation model” pentru physical AI, care unifică raționamentul vizual, generarea de lumi și generarea de acțiuni. Skill-urile sunt poziționate ca un strat care ajută la trecerea de la capabilități de model la fluxuri de lucru scalabile, end-to-end. Vehicule autonome: simulare repetabilă pentru „coada lungă” a condusului Pentru cercetarea în vehicule autonome, NVIDIA indică drept problemă „coada lungă” a condusului: interacțiuni rare, geometrii neobișnuite ale drumului, schimbări de lumină și comportamente-limită greu de colectat repetat, dar critice pentru antrenare și validare. Abordarea propusă include automatizarea reconstrucției scenelor din date de flotă și generarea de scenarii sintetice. Un exemplu este skill-ul „Neural Reconstruction”, care ar transforma date capturate de flotă în scene 3D editabile pentru simulare și generare de date sintetice, împreună cu tehnologii precum NVIDIA Omniverse NuRec și InstantNuRec. NVIDIA mai menționează: NVIDIA AlpaGym , un cadru open-source de învățare prin recompensă (reinforcement learning) în buclă închisă, conectat la simulare de fidelitate ridicată și scalare pe mii de GPU-uri; NVIDIA OmniDreams , un model generativ de lume condiționat de acțiuni, care adaugă randare fotorealistă în bucla de simulare; NVIDIA Alpamayo 2 Super , descris ca cel mai puternic model open de condus al companiei până acum: un model VLA (vision-language-action) cu 32 de miliarde de parametri, pentru raționare, planificare și acțiune „pe întregul stack” de condus, cu țintă de dezvoltare și implementare level 4. Viziune AI: generarea de exemple controlate și „anomalii” sintetice În zona de vision AI, NVIDIA spune că blocajul este lipsa unui volum suficient de exemple controlate pentru a testa cum se comportă modelele când se schimbă condițiile vizuale, starea obiectelor sau evenimentele în timp. Sunt menționate explicit direcții precum detecția de anomalii „zero-shot”, generarea de anomalii sintetice și recunoașterea defectelor cu puține exemple (few-shot). Noile „Metropolis skills” ar permite agenților AI să genereze scenarii vizuale sintetice (inclusiv anomalii), să extindă seturile de date și să sprijine pseudo-etichetarea. Pentru inspecția vizuală, publicația dă ca exemplu skill-ul „Defect Image Generation”, care creează exemple de defecte pe suprafețe diferite pornind de la imagini reale, într-un flux ce combină Isaac Sim (simulare), Cosmos 3 și NVIDIA OSMO (orchestrare). Pentru agenți video, sunt menționate Metropolis Blueprint pentru căutare și sumarizare video (VSS), NVIDIA TAO și skill-uri de augmentare video, cu scopul de a automatiza bucla „build-and-evaluate” pentru modele care detectează evenimente, raționează pe scene complexe, sumarizează activitatea și trimit alerte. Roboți: automatizarea pașilor de simulare și antrenare, inclusiv „sim-to-real” În robotică, NVIDIA pune accent pe iterație: cercetătorii au nevoie de multe medii controlate și rulări de politici (policy rollouts) pentru a înțelege cum se schimbă comportamentul robotului între sarcini și configurații, iar asta implică, de regulă, integrare manuală între simulare, variații de sarcini, antrenare și evaluare. Compania afirmă că „robotics skills” permit agenților să automatizeze pași frecvenți precum pregătirea scenei, simularea și învățarea robotului folosind biblioteci Omniverse, Isaac Sim și Isaac Lab. Sunt menționate și skill-uri specializate pentru mobilitate și manipulare, inclusiv fluxuri pentru sarcini „sim-to-sim” și „sim-to-real” (transfer din simulare către lumea reală), precum construcția mediilor, reglaje de fizică, depanare și profilare. Pentru robotică medicală, NVIDIA indică „Cosmos-H-Surgical-Simulator”, care ar genera date realiste pentru antrenare și evaluare, învățând direct din date chirurgicale reale, cu obiectivul de a reduce diferența dintre simulare și realitate. Disponibilitate și acces: instrumente pe GitHub și medii preconfigurate pe Brev NVIDIA precizează că instrumentele și skill-urile pentru agenți physical AI sunt disponibile public prin GitHub, la NVIDIA physical AI skills . Totodată, skill-uri pentru generare de date sintetice (Neural Reconstruction, Video Augmentation, Defect Image Generation) pot fi rulate și ca „Physical AI Launchables” pe NVIDIA Brev, în medii preconfigurate care rulează pe GPU-uri NVIDIA H100 și includ credite de test pentru cercetători. Separat, compania afirmă că setul său de date „NVIDIA Physical AI Dataset” a depășit 15 milioane de descărcări pe Hugging Face și anunță noi lansări de seturi de date, inclusiv GRAIL (aprox. 50 de ore de interacțiuni humanoid–obiect) și șase seturi video sintetice folosite la antrenarea Cosmos 3. [...]