Inteligență artificială04 iun. 2026
NVIDIA Research prezintă la CVPR modele AI antrenate la scară pentru robotică și condus autonom - GraspGen-X promite prindere „zero-shot”, iar LCDrive reduce la jumătate „tokenii” pentru raționare pe hardware auto
NVIDIA mizează pe „antrenarea la scară” pentru a reduce costurile și timpul de dezvoltare în robotică, conducere autonomă și agenți virtuali, prin modele care generalizează mai bine și rulează mai eficient pe hardware-ul din teren, potrivit NVIDIA , într-o prezentare a trei lucrări de cercetare la conferința CVPR 2026 . Ideea comună a celor trei lucrări este că volume foarte mari de date (în special din simulare) și arhitecturi optimizate pot elimina cicluri repetate de antrenare și pot face sistemele mai aplicabile „din cutie” în contexte variate — un punct cu impact operațional direct pentru companiile care dezvoltă roboți sau sisteme autonome. GraspGen-X: prindere „zero-shot” pentru grippere diferite, fără reantrenare pe fiecare configurație NVIDIA prezintă GraspGen-X , descris ca primul „model fundamental” (foundation model) pentru prindere robotică „zero-shot” — adică poate propune poziții de prindere pentru obiecte și grippere pe care nu le-a mai văzut, fără a fi reantrenat pentru fiecare tip de clește. În mod uzual, arată compania, sistemele de prindere sunt specializate: o politică de control (policy) antrenată pentru un gripper cu două degete nu se transferă automat la un gripper multi-degete, ceea ce obligă la colectare de date, ajustări (fine-tuning) și validare pentru fiecare „întrupare” (embodiment) nouă. GraspGen-X încearcă să elimine acest blocaj prin antrenare pe un set masiv de date: cercetătorii au generat 2 miliarde de prinderi simulate , acoperind mii de forme de obiecte și configurații sintetice de grippere. Modelul poate fi folosit împreună cu curoboV2 , o bibliotecă de planificare a mișcării accelerată cu CUDA, pentru a executa prinderile în medii necunoscute. NVIDIA indică și o continuare a lanțului tehnologic, prin lucrarea „Grasp-MPC”, prezentată la ICRA 2026 (link în sursă). LCDrive: raționament mai rapid pentru mașini autonome, cu mai puține „tokenuri” A doua lucrare, LCDrive, vizează o limitare practică a raționamentului de tip „chain-of-thought” (pași intermediari de gândire): în varianta bazată pe text, fiecare cuvânt generat înseamnă „tokenuri” care consumă timp de calcul, iar în mașină tokenurile devin o constrângere de latență. Soluția propusă este înlocuirea raționamentului în limbaj natural cu reprezentări latente compacte (un spațiu intern de stări care comprimă informația), astfel încât sistemul să „gândească” în stări care surprind informație spațială, nu în propoziții. Arhitectura alternează între propunerea de acțiuni candidate și predicția felului în care va arăta lumea dacă acele acțiuni sunt executate, într-o buclă de rafinare. NVIDIA susține că rezultatul este o calitate comparabilă a traiectoriei față de raționamentul bazat pe text, folosind aproximativ jumătate din tokenuri . Modelul este construit pe NVIDIA Alpamayo și antrenat cu supervizare derivată din date existente de vehicule. NitroGen: antrenarea agenților „întrupați” în jocuri, la volum mare de interacțiuni A treia lucrare, NitroGen, extinde principiul din NVIDIA Isaac GR00T (model fundamental deschis pentru roboți umanoizi) către medii virtuale, folosind jocurile video ca teren de antrenament: lumi structurate, variate, cu obiective și condiții de succes bine definite. NVIDIA afirmă că NitroGen a fost antrenat pe peste 1.000 de jocuri și 40.000 de ore de interacțiune , iar agenții rezultați au fost evaluați pe mai multe genuri (de la action RPG la platformere și jocuri open-world), demonstrând comportamente precum luptă, navigație și explorare. În condiții cu puține date (când agentul vede doar câteva exemple dintr-un mediu nou), pornirea de la NitroGen ar îmbunătăți performanța cu până la 52% față de metodele anterioare de vârf, potrivit companiei. Modelul este disponibil ca open-source pe GitHub și pe Hugging Face . De ce contează pentru industrie: mai puține cicluri de antrenare, latență mai mică, generalizare mai bună Mesajul operațional al pachetului de cercetări este reducerea „fricțiunii” de implementare: de la eliminarea reantrenării pentru fiecare gripper (GraspGen-X), la raționament mai rapid pe hardware-ul din vehicul (LCDrive), până la pre-antrenarea agenților în medii virtuale diverse înainte de contactul cu lumea reală (NitroGen). NVIDIA mai indică faptul că a prezentat la CVPR și „noi abilități” pentru agenți de „AI fizic” (physical AI) menite să accelereze dezvoltarea de vehicule autonome, roboți și sisteme de viziune, cu detalii suplimentare într-un material separat (link în sursă). [...]