Inteligență artificială13 mai 2026
Xiaomi publică open-source modelul de conducere autonomă OneVL - unifică VLA și „world model” într-un singur cadru și promite inferență mai rapidă și mai precisă
Xiaomi a publicat ca open-source modelul de conducere autonomă OneVL, mizând pe accelerarea dezvoltării și a testării în industrie , potrivit IT Home . Compania spune că OneVL unifică, într-un singur cadru, mai multe direcții tehnice folosite până acum separat în automatizarea condusului, cu efect direct asupra vitezei și preciziei inferenței (rularea modelului pentru a lua decizii). Ce aduce OneVL și de ce contează operațional Conform Xiaomi, OneVL este un „cadru de raționament limbaj–viziune în spațiu latent” (adică modelul face pași de raționament într-o reprezentare internă comprimată, nu explicit în text), care reunește: VLA (Vision-Language-Action) – abordare care „înțelege” scena și produce acțiuni de condus; „world model” (model al lumii) – abordare care anticipează cum va evolua scena în viitor; raționament în spațiu latent , folosit pentru a le integra într-un singur sistem. Xiaomi susține că modelul îmbunătățește semnificativ viteza și acuratețea inferenței și îl descrie drept o soluție „de pionierat” în industrie. În termeni comparativi, compania afirmă că OneVL depășește ca precizie abordări de tip „CoT explicit” (chain-of-thought, adică pași de raționament redați explicit) și aliniază viteza cu predicția de tip „doar răspunsul”, în varianta de „CoT în spațiu latent”. Unificarea a două rute tehnice folosite separat Materialul notează că, istoric, VLA și modelele lumii au fost două rute relativ independente în conducerea autonomă: prima orientată pe decizie și acțiune, a doua pe predicția evoluției mediului. Xiaomi afirmă că OneVL le unește „pentru prima dată” în același cadru prin raționament în spațiu latent. Rezultate raportate pe benchmark-uri și componenta de explicabilitate Xiaomi spune că OneVL a ridicat plafonul de performanță pentru metodele de raționament latent pe mai multe benchmark-uri uzuale care acoperă percepție, raționament și planificare. Sunt menționate rezultate de tip SOTA (state of the art – cele mai bune rezultate raportate) pe ROADWork, Impromptu și Alpamayo-R1, precum și performanțe „superioare” pe NAVSIM. Un element operațional important invocat este explicabilitatea deciziilor : modelul ar putea oferi atât explicații în limbaj natural despre „de ce conduce așa”, cât și o componentă vizuală prin predicția a „ce urmează să se întâmple”. Ce a fost publicat efectiv Xiaomi a pus la dispoziție public: raportul tehnic : https://arxiv.org/abs/2604.18486 pagina proiectului: https://xiaomi-embodied-intelligence.github.io/OneVL codul sursă: https://github.com/xiaomi-research/onevl Articolul nu oferă detalii despre condițiile de licențiere, cerințele hardware sau un calendar de integrare în produse comerciale; informațiile disponibile se limitează la descrierea tehnică și la publicarea resurselor open-source. [...]