Tehnologie22 apr. 2026
Google lansează TPU-uri de generația a opta pentru optimizarea performanței AI - Cipurile TPU 8t și TPU 8i sunt specializate pentru antrenament și inferență, promițând eficiență energetică și putere de calcul superioară
Google mizează pe reducerea costului de rulare a AI în producție : potrivit Google Cloud , a opta generație de cipuri TPU vine în două variante specializate – TPU 8t pentru antrenare (training) și TPU 8i pentru inferență (rulare rapidă a modelelor) – cu promisiunea unor câștiguri de eficiență care pot schimba economia proiectelor de inteligență artificială la scară mare. Anunțul a fost făcut la Google Cloud Next și vizează infrastructura necesară „erei agentice”, în care modele și agenți AI trebuie să execute fluxuri cu mai mulți pași și să învețe din propriile acțiuni în bucle continue, ceea ce crește presiunea pe latență, memorie și consum energetic. Compania spune că cele două cipuri vor fi disponibile „mai târziu în acest an”, iar organizațiile pot cere informații în avans pentru a se pregăti de disponibilitatea generală. De ce contează: eficiența devine constrângerea principală în centrele de date Google susține că, în centrele de date, limita nu mai este doar disponibilitatea cipurilor, ci și energia electrică. În acest context, TPU 8t și TPU 8i sunt proiectate să crească performanța pe watt (raportul dintre puterea de calcul și consumul de energie), compania indicând „până la de două ori” performanță pe watt față de generația anterioară, Ironwood. Separat, pentru inferență – adică partea care generează costuri recurente când modelele sunt folosite de clienți – Google afirmă că TPU 8i aduce „80%” performanță mai bună per dolar comparativ cu generația precedentă, ceea ce ar permite companiilor „aproape dublarea volumului de clienți la același cost”. TPU 8t: accelerarea antrenării și scalare la nivel de „superpod” Pentru TPU 8t, Google pune accent pe scurtarea ciclului de dezvoltare a modelelor „de la luni la săptămâni” și pe creșterea capacității de antrenare la scară foarte mare. Printre elementele menționate: „aproape 3x” performanță de calcul per pod față de generația anterioară; un „superpod” care scalează la 9.600 de cipuri și două petabytes de memorie partajată cu lățime mare de bandă; 121 ExaFlops putere de calcul (conform descrierii din material); integrarea unui acces la stocare „de 10x mai rapid” și TPUDirect pentru a aduce datele direct în TPU. Google mai spune că TPU 8t țintește peste 97% „goodput” (timp de calcul util), prin funcții de fiabilitate și mentenanță (RAS), inclusiv telemetrie în timp real, rerutare automată în jurul legăturilor defecte și comutare optică a circuitelor (OCS) pentru reconfigurare fără intervenție umană. TPU 8i: inferență cu latență redusă și „agenți” care colaborează Pentru TPU 8i, mesajul central este reducerea latenței în scenarii cu mulți agenți AI care lucrează împreună („swarming”), unde întârzierile mici se amplifică la scară. Google enumeră patru direcții tehnice, cu impact direct în cost și timp de răspuns: memorie de mare viteză: 288 GB memorie cu lățime mare de bandă și 384 MB SRAM pe cip (de „3x” față de generația anterioară), pentru a ține setul activ de lucru „pe cip”; trecerea la procesoare gazdă Axion (CPU Arm dezvoltate de Google) și dublarea numărului de gazde CPU fizice per server, cu arhitectură NUMA (organizare a memoriei pe noduri) pentru izolare; pentru modele de tip MoE (Mixture of Experts), dublarea lățimii de bandă a interconectării (ICI) la 19,2 Tb/s și o arhitectură Boardfly care reduce „diametrul” rețelei cu peste 50%; un motor pe cip pentru accelerarea operațiunilor colective (CAE), care reduce latența pe cip „cu până la 5x”. Implicații operaționale: compatibilitate cu framework-uri uzuale și acces „bare metal” Google afirmă că ambele platforme rulează pe gazde CPU Axion și suportă nativ JAX, MaxText, PyTorch, SGLang și vLLM, plus acces „bare metal” (acces direct la hardware, fără costul suplimentar al virtualizării). Compania menționează și contribuții open-source, inclusiv implementări de referință MaxText și Tunix pentru suport de învățare prin recompensă (reinforcement learning). În material este menționat și un exemplu de utilizator, Citadel Securities , ca organizație care a ales TPU-uri pentru sarcini AI, fără a fi detaliate însă proiectele sau dimensiunea implementării. Ce urmează Google indică disponibilitate „mai târziu în acest an” pentru TPU 8t și TPU 8i și spune că se pot solicita informații în avans. Din perspectiva companiilor, miza practică este dacă îmbunătățirile de performanță per dolar și per watt se traduc în costuri mai mici de inferență și în cicluri mai rapide de antrenare, într-un moment în care rularea AI la scară este limitată tot mai des de energie și de eficiența infrastructurii, nu doar de puterea brută de calcul. [...]