Inteligență artificială04 iun. 2026
Google DeepMind lansează Gemma 4 12B, un model multimodal fără encodere separate - rulează local pe laptopuri cu 16GB și adaugă intrări audio native
Google împinge rularea locală a agenților multimodali pe laptopuri prin Gemma 4 12B , un model care promite performanță apropiată de varianta mai mare (26B) la un consum de memorie mult redus și care poate rula pe hardware de consum, potrivit Google Blog . Modelul este poziționat între Gemma E4B (orientat spre „edge”, adică rulare pe dispozitive) și Gemma 26B de tip Mixture of Experts (MoE – arhitectură care activează selectiv „experți” specializați). Google spune că Gemma 4 12B „împachetează” capabilități puternice într-un „memory footprint” mai mic și este primul model „mid-sized” din familie cu intrări audio native. De ce contează: inferență locală cu cerințe mai mici de memorie Miza operațională este reducerea dependenței de cloud pentru aplicații cu imagini și audio, printr-un model suficient de mic pentru rulare locală. Google afirmă că Gemma 4 12B este „laptop ready”, putând rula cu 16 GB de VRAM sau memorie unificată (în funcție de platformă), și că atinge performanțe apropiate de modelul 26B MoE pe benchmark-uri standard, dar la mai puțin de jumătate din amprenta totală de memorie . În același timp, compania indică o adopție deja mare a familiei Gemma 4: modelele au depășit 150 de milioane de descărcări , iar comunitatea a construit aplicații de la „brațe robotice purtabile” până la soluții de securitate AI pentru mediul enterprise. Ce aduce nou: arhitectură multimodală unificată, fără encodere separate Diferențiatorul tehnic principal este arhitectura „encoder-free”: în loc să folosească encodere separate pentru a transforma imaginea sau audio în reprezentări intermediare înainte de modelul lingvistic, Gemma 4 12B introduce intrările vizuale și audio direct în „coloana vertebrală” a modelului de limbaj (LLM). Google argumentează că encoderele separate cresc latența și consumul de memorie. Pe scurt, modul de procesare descris de Google este: Viziune: encoderul vizual din Gemma 4 este înlocuit cu un modul de „embedding” (reprezentare numerică) mai ușor, bazat pe o singură înmulțire de matrice, „positional embedding” și normalizări, lăsând modelul lingvistic să preia procesarea vizuală. Audio: encoderul audio este eliminat complet, iar semnalul audio brut este proiectat în același spațiu dimensional ca „tokenii” text (unități de procesare ale modelului). Google mai spune că modelul include „drafters” pentru Multi-Token Prediction (MTP), o tehnică menită să reducă latența. Cum poate fi folosit: instrumente și distribuție Pentru testare și rulare locală, Google indică suport în mai multe instrumente și canale, inclusiv: LM Studio Ollama Google AI Edge Gallery App Google AI Edge Eloquent LiteRT-LM CLI Modelul este publicat sub licență Apache 2.0 , iar „weights” (parametrii antrenați) sunt disponibili prin colecția de pe Hugging Face . Pentru detalii de implementare, Google trimite la un ghid dedicat: Developer Guide . În paralel, compania anunță și un „Skills Repository” oficial pentru dezvoltarea de agenți (o bibliotecă de „abilități” pentru agenți construiți cu Gemma) și opțiuni de implementare în producție prin Google Cloud (inclusiv Model Garden, Cloud Run și GKE), fără a oferi în material detalii despre prețuri sau condiții comerciale. [...]