Inteligență artificială26 mar. 2026
Google lansează TurboQuant, un algoritm nou de comprimare a memoriei AI - reduce semnificativ spațiul necesar fără a afecta performanța
Google Research a prezentat TurboQuant, un algoritm de comprimare a memoriei pentru AI , potrivit TechCrunch . Anunțul, făcut marți, a stârnit rapid comparații online cu „Pied Piper”, startupul fictiv din serialul HBO „Silicon Valley” , cunoscut în poveste pentru o tehnologie de comprimare aproape fără pierderi. TurboQuant vizează o problemă practică din infrastructura AI: reducerea „memoriei de lucru” folosite în timpul rulării modelelor (inferență). Google Research descrie tehnologia ca o metodă nouă de a micșora această memorie fără a afecta performanța, printr-o formă de cuantizare vectorială (o tehnică ce reprezintă informația în mod mai compact), menită să elimine blocajele din cache în procesarea AI. Ideea, pe scurt, este ca sistemele să „țină minte” mai mult, ocupând mai puțin spațiu, fără pierderi de acuratețe. Cercetătorii spun că vor prezenta rezultatele la conferința ICLR 2026, programată luna viitoare, împreună cu două componente tehnice care fac posibilă comprimarea: o metodă de cuantizare numită PolarQuant și o metodă de antrenare și optimizare numită QJL. Dacă ar fi implementat cu succes în producție, TurboQuant ar putea reduce costurile de operare ale AI prin scăderea memoriei folosite la rulare , cunoscută drept „KV cache” (cache pentru chei și valori, folosit în special de modelele de tip transformer). Google indică o reducere a acestei memorii de „cel puțin 6 ori”, conform articolului. În același context, CEO-ul Cloudflare, Matthew Prince, compară momentul cu „DeepSeek”, trimițând la câștigurile de eficiență asociate modelului chinezesc menționat. Totuși, TechCrunch notează că TurboQuant nu este încă implementat pe scară largă și rămâne, deocamdată, un rezultat de laborator, ceea ce face dificilă evaluarea impactului real. În plus, tehnologia țintește memoria de inferență, nu și antrenarea modelelor, care continuă să necesite cantități foarte mari de memorie, astfel că nu ar rezolva, în această formă, presiunile mai largi asupra resurselor RAM generate de AI. Ce este TurboQuant: algoritm de comprimare a memoriei de lucru pentru AI, fără pierderi de performanță. Unde ar urma să fie prezentat: ICLR 2026, luna viitoare. Componentele menționate de Google: PolarQuant (cuantizare) și QJL (antrenare/optimizare). Beneficiul estimat: reducerea „KV cache” cu „cel puțin 6 ori”, ceea ce ar putea ieftini rularea modelelor. Limitarea principală: se aplică inferenței, nu antrenării; nu este încă implementat pe scară largă. [...]