Știri
Știri din categoria Inteligență artificială

Sam Altman cere Congresului SUA să evite aprobarea guvernamentală înaintea lansării noilor modele AI, o poziție care ar putea influența direct ritmul de inovare și costurile de conformare pentru întreaga industrie, în condițiile în care OpenAI se pregătește „în secret” de listarea la bursă, potrivit HotNews, care citează Reuters.
Miza este una de reglementare: Altman se va opune propunerilor care ar obliga dezvoltatorii să obțină aprobarea guvernului american înainte de a lansa către public noi modele de inteligență artificială. OpenAI a transmis, într-un comunicat, că demersul face parte dintr-un efort de a influența modul în care va fi reglementată tehnologia.
În vizita sa la Washington, Altman urmează să le ceară parlamentarilor să crească finanțarea pentru testarea inteligenței artificiale în cadrul Departamentului Comerțului al SUA. Instituția colaborează deja cu companii precum OpenAI și Anthropic pentru testarea modelelor, iar OpenAI vrea extinderea inițiativei.
Compania susține că programul ar trebui să includă și cercetători cu expertiză în domenii precum securitatea cibernetică, armele biologice și securitatea națională, între altele.
Potrivit Reuters, vizita lui Altman are loc într-un moment „critic” pentru OpenAI și pentru industrie. Publicația notează că OpenAI se pregătește să depună confidențial o cerere de listare la bursă, în timp ce rivalul Anthropic (dezvoltatorul modelului Claude) a depus deja o solicitare similară.
În acest context, cerințele guvernului american ar putea afecta profiturile dacă încetinesc lansarea noilor modele. În plus, companiile ar putea fi obligate să își modifice produsele pentru a răspunde cerințelor de securitate.
Altman avea programate miercuri întâlniri cu membri ai Congresului, inclusiv cu președintele Camerei Reprezentanților, Mike Johnson. Administrația de la Casa Albă nu a răspuns solicitărilor de a comenta eventuale întrevederi, potrivit aceleiași surse.
Sursa secundară: Reuters.
Recomandate

Consumul intern de „tokeni” la OpenAI a ajuns la niveluri care pun presiune pe costuri , în condițiile în care unii angajați ar folosi lunar aproximativ 100 de miliarde de tokeni, potrivit declarațiilor CEO-ului Sam Altman, citate de iThome . Altman a spus, într-un eveniment dedicat clienților corporate (marți, ora locală), că „campionul” consumului de tokeni din interiorul companiei ajunge la circa 100 de miliarde pe lună. Prin comparație, în urmă cu șase ani și jumătate, cel mai mare consumator intern folosea aproximativ 100.000 de tokeni lunar — un nivel pe care Altman l-a descris drept aproape cel mai ridicat la nivel global la acel moment. Acum, același ordin de mărime ar fi ajuns „aproape” la nivelul mediu global de utilizare, potrivit lui. Deși consumul intern este foarte mare, Altman a precizat că nu ar fi cel mai ridicat din lume: OpenAI ar fi identificat un utilizator extern cu un consum și mai mare, situație pe care CEO-ul a spus că a găsit-o „jenantă” în plan personal. „Tokenii” ca metrică de cost și o cultură internă a consumului În material se menționează că folosirea intensă a tokenilor ar fi devenit o „modă” internă: OpenAI ar avea un clasament al consumului, iar unii angajați ar publica pe X capturi cu utilizarea lor ridicată. Contextul e relevant economic deoarece tokenii sunt unitatea de măsură folosită la facturarea utilizării modelelor (pe scurt, fragmente de text procesate), iar OpenAI este și vânzătorul acestor servicii. Sursa mai indică exemple de consum extrem, atribuite unor terți: dezvoltatorul OpenClaw, Peter Steinberger , ar fi publicat o captură în care apare un consum de 603 miliarde de tokeni în 30 de zile; The New York Times ar fi relatat despre un angajat OpenAI care ar fi folosit 210 miliarde de tokeni într-o singură săptămână. De ce contează: restul industriei încearcă să limiteze cheltuielile cu AI În timp ce OpenAI ar tolera consumul intern ridicat, alte companii ar fi trecut la măsuri de control al costurilor, potrivit aceleiași surse: Amazon ar fi închis un clasament intern al consumului de tokeni; Uber ar fi introdus limite de utilizare, după ce directorul operațional ar fi pus sub semnul întrebării raportul cost-beneficiu al acestor cheltuieli. Altman a mai spus că OpenAI lucrează la optimizarea modelelor proprii și caută soluții de reducere a costurilor, cu obiectivul de a „crea valoare mai mare la costuri mai mici”. El a susținut și că problema costurilor AI a devenit vizibilă brusc: la începutul lui 2026 „nimănui nu-i păsa” de cheltuieli, însă acum costul utilizării AI a devenit o problemă majoră care trebuie rezolvată. [...]

Anthropic își pregătește IPO-ul cu Morgan Stanley și Goldman Sachs, dar miza reală este factura de infrastructură dezvăluită indirect: un acord de calcul cu SpaceX de 1,25 miliarde de dolari pe lună (aprox. 5,8 miliarde lei), potrivit The Next Web . Alegerea băncilor și calendarul vizat (octombrie) conturează o listare care ar putea deveni una dintre cele mai mari din tehnologie, însă costurile recurente pentru capacitate de calcul ridică întrebări despre marje și riscuri operaționale înainte de intrarea pe bursă. Anthropic a selectat Morgan Stanley și Goldman Sachs pentru a conduce oferta publică inițială (IPO), cu JPMorgan Chase implicată în tranzacție, după ce compania a depus confidențial documentele pentru listare. Conform informațiilor citate de publicație dintr-un material Bloomberg , echipa de bănci ar putea fi extinsă, iar parametrii ofertei se pot modifica. Contractul SpaceX: 325.000 de cipuri Nvidia și 1,25 miliarde dolari pe lună Detaliul cu cel mai mare impact economic nu vine din comunicările Anthropic, ci din documentația de listare a SpaceX (S-1), care arată că SpaceX furnizează către Anthropic capacitate de calcul pentru inteligență artificială, inclusiv aproximativ 325.000 de cipuri Nvidia, la un cost de 1,25 miliarde de dolari pe lună (aprox. 5,8 miliarde lei). Acordul se întinde până în mai 2029 și poate fi reziliat de oricare dintre părți cu un preaviz de 90 de zile, după o perioadă inițială de trei luni. Publicația notează că această relație face din SpaceX simultan furnizor pentru Anthropic, competitor (prin chatbotul Grok) și, în același timp, candidat la propria listare. La nivel anualizat, contractul ar echivala cu 15 miliarde de dolari (aprox. 69 miliarde lei) doar pentru calcul, ceea ce pune în perspectivă dimensiunea dependenței de infrastructură și presiunea pe profitabilitate. Ce poate deveni „material” în prospectul de listare The Next Web subliniază că, odată ce documentul S-1 al Anthropic va fi public, compania ar trebui să prezinte acest acord ca o relație relevantă pentru investitori, în contextul suprapunerii competitive dintre părți. În practică, astfel de aranjamente sunt urmărite atent pentru riscuri de continuitate a serviciului, putere de negociere și potențiale conflicte de interese. În paralel, Anthropic intră într-o „aglomerare” de listări mari în tehnologie, cu SpaceX și OpenAI menționate ca alte nume care se pregătesc pentru piața publică, ceea ce poate intensifica competiția pentru capital și poate influența evaluările. Context: creștere accelerată, dar și un risc de reglementare Pe lângă componenta de infrastructură, un alt element de risc menționat este desemnarea de către Pentagon a Anthropic ca risc pe lanțul de aprovizionare , după ce compania ar fi refuzat acces nerestricționat la modele pentru zona militară; Anthropic a spus că situația ar putea pune în pericol miliarde de dolari în venituri. Modul în care acest risc va fi descris și cuantificat în documentația de listare este prezentat ca un punct sensibil pentru investitorii de pe piețele publice. În acest cadru, IPO-ul Anthropic devine mai mult decât o simplă alegere de bănci: este un test despre cât de mult sunt dispuși investitorii să plătească pentru creștere în AI atunci când costul de bază — calculul — poate ajunge la niveluri de ordinul zecilor de miliarde de dolari anual. [...]

OpenAI își extinde accesul „trusted-access” la GPT‑Rosalind , un model pentru cercetare în științele vieții, mizând pe o combinație de capabilități avansate de lucru cu instrumente și pe evaluări specializate care promit eficiență mai bună în fluxuri de analiză și laborator. Potrivit OpenAI , actualizarea din seria GPT‑Rosalind este construită pentru cercetare la scară „enterprise” (organizații mari) și este disponibilă în „research preview” (acces limitat, de test) pentru organizații eligibile la nivel global. Modelul combină capabilități de „agentic coding” și utilizare de instrumente (adică poate planifica și executa pași de lucru cu ajutorul unor unelte software) cu o inteligență mai puternică în domenii-cheie pentru descoperirea de medicamente, precum chimia medicinală și genomica. OpenAI susține că, în evaluările interne, versiunea actualizată arată câștiguri de performanță pe sarcini de cercetare, inclusiv întrebări complexe de chimie medicinală, biologie cantitativă și depanare de proceduri de laborator („wet lab”). De ce contează: acces controlat și integrare în fluxuri de lucru, nu doar „răspunsuri” mai bune Unghiul principal al actualizării este operațional: OpenAI împinge GPT‑Rosalind către utilizare în organizații, în condiții de acces controlat și cu integrare în fluxuri repetabile, auditate. Publicația spune că extinde disponibilitatea globală printr-o structură de implementare „trusted-access”, destinată organizațiilor care desfășoară cercetare legitimă cu beneficiu public, au guvernanță și supraveghere de siguranță și pot asigura acces controlat cu securitate de nivel „enterprise”. În paralel, OpenAI anunță și un „managed workspace” (spațiu de lucru administrat de OpenAI) pentru organizațiile calificate care nu au un cont Enterprise. Cum își măsoară OpenAI progresul: LifeSciBench, MedChemBench, GeneBench și LabWorkBench Pentru a urmări impactul în sarcini „valoroase științific”, OpenAI spune că a construit LifeSciBench, un set de evaluare judecat de experți externi, care acoperă șase zone de flux de lucru: gestionarea dovezilor, analiză, proiectare și optimizare, raționament științific, validare și operațiuni, respectiv traducere și comunicare. Pe lângă acesta, compania descrie alte evaluări și rezultate comparative cu GPT‑5.5: MedChemBench (chimie medicinală): GPT‑Rosalind depășește GPT‑5.5 la scor (27,5% vs. 25,1%) și folosește cu 7,2% mai puțini „tokeni” (unități de text procesate, relevante pentru cost și timp de rulare). GeneBench (genomică și biologie cantitativă, evaluare „agentică” pe sarcini de durată): GPT‑Rosalind folosește cu 31% mai puțini tokeni și are acuratețe mai mare (21,6% vs. 20,4%). LabWorkBench (asistență pe protocoale reale de laborator): GPT‑Rosalind obține 63,2% vs. 55,8% pentru GPT‑5.5, cu 5,3% mai puțini tokeni; datele folosite sunt descrise ca proprietare, pentru a evita contaminarea. Stratul de execuție: pluginuri pentru dovezi și analiză NGS, plus vizualizatoare de fișiere biologice OpenAI leagă actualizarea de un set de instrumente care duc modelul din zona de raționament în cea de execuție a fluxurilor de lucru. Compania indică două pluginuri: Life Sciences Research (recuperare de dovezi cu surse și interpretare biologică) Life Sciences NGS Analysis (execuție bioinformatică pentru analize NGS – „next-generation sequencing”, adică secvențiere de nouă generație) Ambele sunt accesibile prin Codex, iar utilizatorii enterprise calificați pot folosi GPT‑Rosalind pentru a le alimenta. OpenAI mai spune că a adăugat vizualizatoare interactive pentru tipuri de fișiere „native” în biologie (secvențe, alinieri, structuri), astfel încât cercetătorii să poată rămâne „aproape de dovezi” în timpul analizei și să poată pune întrebări în contextul vizualizării active. Parteneriatul cu Novo Nordisk și ce urmează În contextul extinderii accesului, OpenAI menționează că Novo Nordisk folosește capabilități de inteligență artificială avansată pentru a ajuta cercetătorii să analizeze seturi de date complexe, să identifice tipare și să testeze ipoteze mai rapid. În material este inclusă o declarație a lui Mishal Patel (Group Vice President, AI & Digital Innovation, R&D – Novo Nordisk) despre nevoia ca modelele avansate să fie ancorate în date de încredere, conectate la instrumente validate și integrate în fluxurile reale de lucru. În continuare, OpenAI afirmă că va îmbunătăți raționamentul biologic al modelului, va extinde suportul pentru fluxuri de lucru „tool-heavy” (cu multe instrumente) și de durată și va evalua impactul în utilizare reală, inclusiv în proiecte cu beneficiu public precum descoperirea de medicamente, sănătate publică, pregătire și biodefense, în linie cu inițiativa Rosalind Biodefense . [...]

NVIDIA își extinde ecosistemul de „AI Cloud” pentru a crește rapid capacitatea de calcul necesară aplicațiilor cu agenți AI , pe fondul unei cereri în creștere pentru „tokeni” (unități de procesare a textului/ieșirilor modelelor) și pentru infrastructură regională, inclusiv în contexte suverane și reglementate, potrivit NVIDIA . Unghiul principal al mișcării este operațional: furnizorii de cloud și partenerii NVIDIA accelerează construcția de „AI factories” (centre de date optimizate pentru antrenare și inferență AI) mai aproape de date, dezvoltatori și utilizatori, pentru a reduce fricțiunea de acces la infrastructură și pentru a susține aplicații „agentice” (sisteme AI care execută sarcini în lanț, cu autonomie mai mare). De ce contează: capacitate regională și opțiuni „suverane” pentru industrii reglementate Publicația descrie NVIDIA AI Clouds ca un ecosistem de cloud-uri „proiectate special” și co-dezvoltate cu infrastructura completă NVIDIA (calcul accelerat, rețelistică și software AI), care acoperă antrenare, ajustare fină (fine-tuning), inferență, aplicații agentice, „physical AI” (AI pentru robotică și sisteme fizice) și implementări de tip „sovereign AI” (control local asupra datelor și infrastructurii). În acest context, extinderea are o componentă de conformitate și control: pentru guverne și industrii reglementate, cloud-urile regionale pot susține cerințe de conformitate locală și „controale suverane”, iar pentru companii și dezvoltatori pot facilita rularea serviciilor AI „aproape de utilizatori și date” (de exemplu, copiloți enterprise, „digital workers” și alți agenți AI). Extindere geografică: șase continente, cu noi intrări în Africa și America de Sud NVIDIA afirmă că ecosistemul ajunge acum pe șase continente, după adăugarea Cassava în Africa și Claro în America de Sud. Creșterea regională este indicată ca accelerând în Asia de Sud-Est, Australia și Americi. În paralel, sunt menționați parteneri care își extind infrastructura pentru dezvoltarea de modele de vârf, aplicații agentice și inferență la volum mare, între care CoreWeave , Firmus, IREN, Nebius și Nscale. Ce se construiește concret: „AI factories” și platforme pentru inferență și „physical AI” Textul oferă câteva exemple de implementare: Firmus Technologies își extinde „amprenta” de AI factory în Australia de Sud și Asia de Sud-Est, inclusiv prin Project Southgate (Tasmania, Melbourne, Australia de Sud și New South Wales), cu accent pe energie regenerabilă, răcire avansată și infrastructură modulară pentru a aduce capacitate online mai repede. Compania folosește arhitectura de referință NVIDIA și platforma NVIDIA DSX pentru proiectare, implementare și operare. CoreWeave își extinde platforma NVIDIA AI Cloud pentru „agentic AI”, „physical AI” și sarcini de tip „frontier model”. Este menționată adoptarea timpurie a NVIDIA Vera Rubin și NVIDIA Vera CPU , precum și a NVIDIA Spectrum-X Ethernet Photonics pentru rețelistică destinată unor AI factories la scară foarte mare. Pentru robotică și „physical AI”, CoreWeave folosește NVIDIA Cosmos 3 (detalii: NVIDIA Cosmos 3 ) pentru generare de date sintetice și ajustarea modelelor. Nebius își extinde NVIDIA AI Cloud cu o platformă „full-stack” (de la hardware la software), incluzând un strat de inferență numit Token Factory și un Physical AI Workbench , care integrează tehnologii precum NVIDIA Cosmos 3, NVIDIA Isaac Sim și Isaac GR00T în fluxuri de lucru „compozabile”. Separat, NVIDIA notează că șase parteneri au obținut statutul de Exemplar Cloud : CoreWeave, Crusoe, Lambda, Nebius, Vultr și YTL. Miza eficienței: „cost per token” și DSX pentru punerea mai rapidă în funcțiune NVIDIA pune accent pe economie și eficiență operațională, argumentând că, pe măsură ce AI se mută de la dezvoltarea modelelor la „reasoning” și inferență la volum mare, criteriul nu mai este doar capacitatea instalată, ci și „economia” producției de tokeni. Compania descrie „cost per token” ca indicator de cost total de deținere (TCO), care include performanța hardware, optimizările software, suportul de ecosistem și utilizarea în condiții reale, și susține că livrează „cel mai mic cost per token” din industrie (fără a oferi cifre în materialul citat). Pentru accelerarea implementărilor, NVIDIA arată că partenerii adoptă platforma NVIDIA DSX (detalii: NVIDIA DSX platform ), care include componente pentru simulare înainte de implementare, adaptarea sarcinilor la condițiile rețelei electrice și automatizarea operațiunilor. Potrivit descrierii din text, una dintre componentele DSX (DSX MaxLPS) ar permite, în condiții de limitare de putere, „până la 40% mai multe GPU-uri” în același buget energetic, prin maximizarea calculului în limitele de consum. Ce urmează Din informațiile prezentate, direcția imediată este creșterea capacității regionale și standardizarea operării „AI factories” prin platforme precum DSX, în paralel cu extinderea cazurilor de utilizare către aplicații agentice și „physical AI”. Materialul nu include un calendar de livrare sau ținte cantitative agregate pentru capacități, astfel că ritmul exact al extinderii rămâne neprecizat. [...]

Instituțiile financiare își mută arhitectura de AI către „modele fundamentale” antrenate pe tranzacții , pentru a reduce fragmentarea generată de zeci de modele specializate și pentru a obține o înțelegere unificată a comportamentului clienților, potrivit NVIDIA . Miza operațională este simplă: pe măsură ce AI se extinde în tot mai multe procese, costul și complexitatea întreținerii unor sisteme „în silozuri” devin factorul limitativ. În analiza companiei, instituțiile au construit în timp modele separate pentru fraudă, credit, recomandări și risc, eficiente punctual, dar greu de conectat între ele. Pe fondul creșterii volumelor de date, apare un decalaj între „cât știu” organizațiile din datele lor și „cât poate raționa” AI-ul peste aceste date, tocmai din cauza arhitecturilor fragmentate. De ce contează: un singur model, mai multe utilizări NVIDIA descrie „modelele fundamentale de tranzacții” ca sisteme de AI de mare amploare, antrenate pe miliarde de evenimente financiare (plăți, transferuri, interacțiuni cu produse și semnale comportamentale), care transformă datele brute în „inteligență” reutilizabilă în mai multe sarcini. Diferența față de un model clasic (de exemplu, unul de fraudă) este interpretarea în context: momentul, dispozitivul, locația și istoricul anterior schimbă semnificația unei tranzacții. Publicația leagă această schimbare de maturizarea arhitecturilor de tip „transformer” (familie de modele folosită pe scară largă în AI generativ), aplicate aici pe date tabelare (tranzacții), pentru a extrage semnale care ar rămâne invizibile în algoritmi tradiționali. Semnal din piață: investițiile în AI cresc, dar crește și complexitatea Conform raportului 2026 State of AI in Financial Services , citat de companie, 65% dintre instituții folosesc deja AI, aproape 90% o implementează sau o evaluează, iar „aproape toate” își mențin sau își cresc bugetele. În acest context, NVIDIA susține că nu lipsa de cazuri de utilizare este problema, ci traiectoria: fiecare caz nou adaugă încă un model, fiecare piață nouă cere reantrenare, iar lipsa contextului comun „lasă valoare pe masă”. Exemple de implementare: Revolut, Mastercard, Adyen, Stripe NVIDIA oferă câteva repere despre cum arată această tranziție în practică: Revolut a construit, împreună cu NVIDIA, PRAGMA , o familie de modele de tip transformer antrenate pe 24 de miliarde de evenimente din 26 de milioane de înregistrări de utilizatori, în peste 100 de țări, conform lucrării PRAGMA . Compania susține că un singur model a depășit modele specializate pe domenii precum scorare de credit, detecție de fraudă și recomandări de produse și a redus dependența de „caracteristici” construite manual (feature engineering). „Trecem de la săptămâni, sau chiar în unele cazuri luni, de inginerie de caracteristici la un timp zero necesar pentru asta”, a declarat Tadas Kriščiūnas, head of group credit data science la Revolut. Mastercard dezvoltă un model fundamental tabelar proprietar pentru plăți, antrenat pe miliarde de tranzacții anonimizate și proiectat să scaleze la sute de miliarde, extinzând seturile de date (fraudă, autorizare, chargeback, locația comerciantului, loialitate). NVIDIA notează că modelul este construit cu capabilități de la NVIDIA, AWS și Databricks, inclusiv NVIDIA NeMo AutoModel din cadrul NVIDIA NeMo , și că testele timpurii arată performanțe peste tehnici standard de machine learning. Adyen ar fi implementat astfel de modele „la scară”, procesând 1 trilion de dolari (aprox. 4,6 trilioane lei) în plăți. Compania folosește învățare prin recompensă (reinforcement learning) pentru a maximiza conversia și a minimiza riscul, iar NVIDIA citează impactul potențial al unor îmbunătățiri marginale: „Chiar și îmbunătățiri fracționare, precum un plus de 0,1% la autorizare, se pot traduce în creșteri masive ale valorii brute a mărfurilor și reduceri substanțiale de costuri”, a declarat Dhruv Ghulati, principal AI product manager la Adyen. Stripe folosește platforma NVIDIA și AWS pentru modele care „înțeleg contextul complet” al comportamentului tranzacțional; compania ar fi blocat anul trecut aproape 112 miliarde de dolari (aprox. 515 miliarde lei) în fraudă și ar fi obținut o reducere medie de 38% a ratelor de fraudă, potrivit materialului. Ce urmează: „modelul de referință” NVIDIA și ecosistemul de implementare Pentru a accelera adopția, NVIDIA indică un exemplu de dezvoltare numit Build Your Own Transaction Foundation Model , care ar permite echipelor să înceapă construirea de „embedding-uri” (reprezentări numerice învățate de model) pe date tranzacționale tabelare și să integreze rezultatul în fluxuri existente, fără reconstrucție completă. Rularea este prezentată ca posibilă pe AWS (cu SageMaker HyperPod) și pe Nebius AI Cloud, iar NVIDIA enumeră și parteneri de servicii (EXL, Thoughtworks, GFT IT Consulting) care ar integra sau operaționaliza astfel de modele în medii bancare, inclusiv pentru guvernanță și modele de operare AI. [...]

Google împinge rularea locală a agenților multimodali pe laptopuri prin Gemma 4 12B , un model care promite performanță apropiată de varianta mai mare (26B) la un consum de memorie mult redus și care poate rula pe hardware de consum, potrivit Google Blog . Modelul este poziționat între Gemma E4B (orientat spre „edge”, adică rulare pe dispozitive) și Gemma 26B de tip Mixture of Experts (MoE – arhitectură care activează selectiv „experți” specializați). Google spune că Gemma 4 12B „împachetează” capabilități puternice într-un „memory footprint” mai mic și este primul model „mid-sized” din familie cu intrări audio native. De ce contează: inferență locală cu cerințe mai mici de memorie Miza operațională este reducerea dependenței de cloud pentru aplicații cu imagini și audio, printr-un model suficient de mic pentru rulare locală. Google afirmă că Gemma 4 12B este „laptop ready”, putând rula cu 16 GB de VRAM sau memorie unificată (în funcție de platformă), și că atinge performanțe apropiate de modelul 26B MoE pe benchmark-uri standard, dar la mai puțin de jumătate din amprenta totală de memorie . În același timp, compania indică o adopție deja mare a familiei Gemma 4: modelele au depășit 150 de milioane de descărcări , iar comunitatea a construit aplicații de la „brațe robotice purtabile” până la soluții de securitate AI pentru mediul enterprise. Ce aduce nou: arhitectură multimodală unificată, fără encodere separate Diferențiatorul tehnic principal este arhitectura „encoder-free”: în loc să folosească encodere separate pentru a transforma imaginea sau audio în reprezentări intermediare înainte de modelul lingvistic, Gemma 4 12B introduce intrările vizuale și audio direct în „coloana vertebrală” a modelului de limbaj (LLM). Google argumentează că encoderele separate cresc latența și consumul de memorie. Pe scurt, modul de procesare descris de Google este: Viziune: encoderul vizual din Gemma 4 este înlocuit cu un modul de „embedding” (reprezentare numerică) mai ușor, bazat pe o singură înmulțire de matrice, „positional embedding” și normalizări, lăsând modelul lingvistic să preia procesarea vizuală. Audio: encoderul audio este eliminat complet, iar semnalul audio brut este proiectat în același spațiu dimensional ca „tokenii” text (unități de procesare ale modelului). Google mai spune că modelul include „drafters” pentru Multi-Token Prediction (MTP), o tehnică menită să reducă latența. Cum poate fi folosit: instrumente și distribuție Pentru testare și rulare locală, Google indică suport în mai multe instrumente și canale, inclusiv: LM Studio Ollama Google AI Edge Gallery App Google AI Edge Eloquent LiteRT-LM CLI Modelul este publicat sub licență Apache 2.0 , iar „weights” (parametrii antrenați) sunt disponibili prin colecția de pe Hugging Face . Pentru detalii de implementare, Google trimite la un ghid dedicat: Developer Guide . În paralel, compania anunță și un „Skills Repository” oficial pentru dezvoltarea de agenți (o bibliotecă de „abilități” pentru agenți construiți cu Gemma) și opțiuni de implementare în producție prin Google Cloud (inclusiv Model Garden, Cloud Run și GKE), fără a oferi în material detalii despre prețuri sau condiții comerciale. [...]