Știri
Știri din categoria Inteligență artificială

Anthropic își apără prețul în fața rivalilor printr-un salt de productivitate la același cost: noul Claude Opus 4.7 ridică semnificativ performanța în codare și în sarcini „agentice” (fluxuri de lucru cu mai mulți pași și folosire de instrumente), fără scumpiri, potrivit The Next Web.
Modelul este poziționat ca „cel mai capabil” Claude disponibil pe scară largă și vine într-un moment în care miza comercială pentru Anthropic este ridicată: publicația notează că firma rulează la o rată anualizată de venituri de 30 de miliarde de dolari (aprox. 138 miliarde lei), ar fi primit oferte de investiții la o evaluare de circa 800 de miliarde de dolari (aprox. 3.680 miliarde lei) și ar fi în discuții incipiente pentru o listare (IPO). În acest context, Opus 4.7 trebuie să convingă companiile să construiască pe platforma Claude, nu doar să bifeze scoruri în teste.
Câștigul principal este în inginerie software, unde Opus 4.7 urcă pe SWE-bench Pro la 64,3% (de la 53,4% la Opus 4.6) și depășește GPT-5.4 (57,7%) și Gemini 3.1 Pro (54,2%). Pe SWE-bench Verified, scorul ajunge la 87,6% (față de 80,8% la predecesor), în timp ce Gemini 3.1 Pro este la 80,6%.
În paralel, CursorBench (un indicator pentru codare autonomă în editorul Cursor) arată 70%, de la 58% la Opus 4.6. The Next Web leagă această evoluție de utilizarea practică: Claude este deja o alegere implicită în Cursor și Claude Code, iar Claude Code ar fi atins în februarie o rată anualizată de venituri de 2,5 miliarde de dolari (aprox. 11,5 miliarde lei).
Diferențierea se mută însă dinspre „raționament pur” spre execuție în fluxuri complexe. Pe GPQA Diamond (raționament la nivel de studii avansate), scorurile sunt aproape egale: Opus 4.7 are 94,2%, GPT-5.4 Pro 94,4%, iar Gemini 3.1 Pro 94,3% — diferențe pe care publicația le descrie ca fiind în marja de variație.
Anthropic susține că Opus 4.7 aduce o îmbunătățire de 14% față de Opus 4.6 pe fluxuri de lucru complexe, multi-pas, folosind mai puțini „tokeni” (unități de text folosite la calculul costurilor) și generând o treime din erorile de instrumente. Compania mai spune că este primul model Claude care trece „teste de nevoie implicită”, adică situații în care modelul trebuie să deducă singur ce instrumente sau acțiuni sunt necesare.
O noutate importantă este coordonarea multi-agent: capacitatea de a orchestra mai multe „fire” de lucru AI în paralel, în loc de procesare strict secvențială. Pentru utilizări de tip enterprise (revizie de cod, analiză de documente, procesare de date în același timp), aceasta se traduce în debit mai mare de lucru. Anthropic afirmă și că modelul își poate menține „focusul” pe fluxuri de lucru de ordinul orelor, dar aceasta rămâne o afirmație de producător care depinde de validarea în utilizare reală.
Publicația mai notează accentul pe reziliență: Opus 4.7 ar continua execuția chiar și când apar eșecuri ale instrumentelor, în loc să se oprească — relevant pentru automatizări unde o singură eroare poate bloca un întreg lanț.
Pe partea de imagini, Opus 4.7 poate procesa rezoluții de până la 2.576 pixeli pe latura lungă, de peste trei ori față de modelele Claude anterioare. Ținta declarată este analiza de documente în companii (contracte scanate, desene tehnice, situații financiare), unde detaliile fine pot fi ratate la rezoluții mai mici.
Fereastra de context rămâne la un milion de tokeni (jumătate din cei două milioane ai Gemini 3.1 Pro), iar pe benchmark-uri de cercetare cu context lung, Opus 4.7 ar fi la egalitate pe primul loc la scorul total 0,715 pe șase module, cu o consistență ridicată.
Anthropic mai spune că modelul urmează instrucțiunile mai „literal” decât înainte, ceea ce poate cere ajustarea prompturilor existente: mai puțină ambiguitate și comportament „off-task”, dar și mai puține rezultate „creative” neașteptate.
Opus 4.7 este disponibil pe planurile Claude Pro, Max, Team și Enterprise și prin API la 5 dolari (aprox. 23 lei) per milion de tokeni de intrare și 25 de dolari (aprox. 115 lei) per milion de tokeni de ieșire — același nivel ca Opus 4.6. Există și mecanisme de reducere: „prompt caching” cu economii de până la 90% și Batch API cu discount de 50% la intrare și ieșire.
Modelul poate fi accesat și prin Amazon Bedrock, Google Cloud Vertex AI și Microsoft Foundry. The Next Web notează că Gemini 3.1 Pro este mai ieftin (2 dolari și 12 dolari per milion de tokeni pentru intrare/ieșire), însă avantajul Opus 4.7 pe SWE-bench și pe raționament „agentic” ar putea justifica prima de preț pentru companiile care au nevoie de capabilitate maximă.
În plus, Anthropic a adăugat măsuri automate de protecție cibernetică pentru a detecta și bloca solicitări interzise sau cu risc ridicat, pe fondul preocupărilor legate de utilizări cu dublu scop (civil și malițios). Publicația leagă această abordare de restricțiile anterioare aplicate modelului Mythos, disponibil doar pentru 11 organizații în cadrul Project Glasswing.
În esență, Opus 4.7 nu schimbă paradigma, dar mută raportul cost/performanță în favoarea Anthropic exact în zona care contează economic: codare și automatizare de fluxuri complexe, la același preț pe token.
Recomandate

Anthropic păstrează prețul, dar ridică miza pe utilizarea „în producție” a lui Claude Opus 4.7 , cu îmbunătățiri de fiabilitate pentru sarcini lungi și un upgrade de vedere care vizează direct fluxurile de lucru din inginerie software și analiză de imagini, potrivit Interesting Engineering . Modelul, prezentat drept noul vârf de gamă al companiei, este poziționat ca mai potrivit pentru activități complexe, de durată, unde dezvoltatorii s-au plâns frecvent de rezultate inconsecvente pe lanțuri lungi de instrucțiuni. Publicația notează că utilizatori timpurii spun că au mai multă încredere să „delege” sarcini de programare dificile, care anterior necesitau supraveghere umană mai strânsă. Ce se schimbă operațional: codare mai stabilă și respectare mai strictă a instrucțiunilor În zona de programare, Opus 4.7 pune accent pe calitatea execuției și pe consistență în fluxuri extinse de lucru. Conform articolului, modelul își verifică mai bine propriile rezultate înainte de a răspunde, tocmai pentru a reduce erorile care apar pe secvențe lungi de pași. O schimbare cu impact practic este „urmarea instrucțiunilor” (instruction following) mai strictă decât la versiunile anterioare. Asta poate obliga echipele să-și ajusteze modul de scriere a solicitărilor (prompts): instrucțiuni pe care modelele mai vechi le tratau „mai lejer” pot produce acum rezultate neașteptate, dar corecte tehnic. În testările interne menționate, Anthropic indică rezultate mai bune și pe sarcini legate de finanțe, inclusiv analiză structurată și calitatea prezentării. Upgrade pe „vision”: imagini mai mari, utile pentru capturi de ecran și diagrame Pe componenta vizuală, Opus 4.7 poate procesa imagini cu rezoluție mai mare, până la 2.576 pixeli pe latura lungă. Creșterea este prezentată ca un avantaj pentru interpretarea capturilor de ecran dense și a diagramelor detaliate, cu utilizări precum citirea tablourilor de bord, extragerea de date structurate și sprijin pentru „agenți” care folosesc computerul (sisteme care execută pași în interfețe software). Modelul primește și îmbunătățiri legate de „memorie” între sesiuni: poate reține informații-cheie stocate în fișiere și le poate reutiliza ulterior, reducând nevoia de a repeta contextul — un element care, în practică, poate scurta fluxurile de lucru și limita consumul de resurse. Poziționare și control al riscurilor: între performanță și utilizare responsabilă Anthropic trasează o diferență între Opus 4.7 și un sistem experimental mai avansat, Claude Mythos Preview, sugerând că noua versiune urmărește mai degrabă stabilitatea și „pregătirea pentru implementare” decât maximizarea capabilităților brute. Compania afirmă: „Deși este mai puțin capabil în sens larg decât cel mai puternic model al nostru, Claude Mythos Preview, arată rezultate mai bune decât Opus 4.6 pe o gamă de benchmark-uri.” Pe securitate, compania spune că introduce măsuri care detectează și blochează solicitările cu risc ridicat în zona de securitate cibernetică: „Lansăm Opus 4.7 cu măsuri de protecție care detectează și blochează automat solicitările care indică utilizări interzise sau cu risc ridicat în securitatea cibernetică.” În paralel, Anthropic lansează un „Cyber Verification Program”, prin care cercetători verificați pot accesa modelul pentru activități precum testarea de penetrare și analiza vulnerabilităților. Disponibilitate și preț: neschimbate, dar pe mai multe platforme Opus 4.7 este disponibil prin API-ul Anthropic și prin platforme de cloud: Amazon Bedrock , Google Cloud Vertex AI și Microsoft Foundry. Prețurile rămân la 5 dolari (aprox. 23 lei) pe milion de tokeni de intrare și 25 dolari (aprox. 115 lei) pe milion de tokeni de ieșire. Pentru companii, combinația dintre preț neschimbat și accentul pe fiabilitate în sarcini lungi sugerează o încercare de a reduce costurile operaționale ascunse ale utilizării modelelor (timp de verificare, reluări, corecții), fără a cere un buget mai mare per unitate de consum. Limitarea este că articolul nu oferă detalii despre metodologia completă a benchmark-urilor sau rezultate numerice comparabile, dincolo de afirmațiile de poziționare și exemplele de utilizare. [...]

Anthropic introduce verificarea identității în Claude pentru a limita abuzurile și frauda , o schimbare operațională care poate ridica fricțiuni pentru o parte dintre utilizatori și readuce în discuție cine gestionează datele sensibile din fluxurile de acces la servicii AI, potrivit Engadget . Compania spune că unii utilizatori ar putea vedea un prompt de verificare atunci când accesează „anumite capabilități”, fără să detalieze inițial care sunt acele cazuri de utilizare. Procedura presupune prezentarea unui act de identitate fizic, emis de o autoritate publică și cu fotografie, plus realizarea unui selfie cu camera telefonului sau a computerului, pentru comparație cu documentul. Ce se schimbă, concret, pentru utilizatori Verificarea identității este introdusă treptat și nu ar urma să fie universală. Într-o actualizare publicată pe 16 aprilie 2026, un purtător de cuvânt al Anthropic a precizat pentru Engadget că măsura se aplică „unui număr mic de cazuri” în care compania observă activitate ce indică un comportament potențial fraudulos sau abuziv, care încalcă politica de utilizare. Cine procesează datele și ce promite Anthropic Anthropic afirmă că verificarea este realizată de Persona , care va gestiona actele și selfie-urile. Compania susține că Persona nu va copia și nu va stoca aceste imagini, că utilizarea datelor este limitată contractual și că datele sunt criptate atât în tranzit, cât și „în repaus” (adică atunci când sunt păstrate în sisteme). Anthropic mai spune că nu va folosi datele de identitate pentru antrenarea modelelor și că nu le va partaja cu alte părți. Pentru detalii despre proces, Anthropic a publicat și o pagină de suport despre „ identity verification on Claude ”. Reacția comunității și miza reputațională Măsura a fost primită critic de o parte dintre utilizatori, care pun sub semnul întrebării necesitatea verificării identității pentru accesul la un chatbot AI, mai ales în cazul abonaților plătitori, unde compania are deja date de facturare. O parte din critică vizează și alegerea furnizorului Persona, inclusiv legăturile investiționale menționate în material. Deocamdată, Anthropic nu a publicat lista exactă a „capabilităților” care pot declanșa verificarea, iar Engadget notează că a cerut companiei clarificări și va actualiza informația când primește un răspuns. [...]

Jensen Huang avertizează că China are „enorm” de multă putere de calcul nefolosită , inclusiv centre de date „complet goale, dar alimentate”, ceea ce ar putea accelera antrenarea unor modele avansate de inteligență artificială cu impact direct asupra securității cibernetice, potrivit TechRadar . CEO-ul Nvidia a făcut declarațiile într-un episod al podcastului Dwarkesh Patel. Miza, în lectura lui Huang, este una operațională și de risc: capacitatea de calcul (compute) disponibilă — adică infrastructura hardware necesară pentru antrenarea modelelor de IA — ar permite Chinei să dezvolte rapid un model comparabil cu Claude Mythos, inițiativă recent anunțată de Anthropic, cu potențiale consecințe „îngrijorătoare” pentru securitatea cibernetică globală. „Centre de date fantomă” și cipuri „abundent disponibile” Huang spune că tipul de infrastructură pe care a fost antrenat Mythos este „abundent disponibil” în China și atrage atenția că „cipuri există în China”. În același context, el susține că există centre de date care „stau complet goale, complet alimentate”, folosind comparația: „Au orașe fantomă, au și centre de date fantomă.” Tot el afirmă că, dacă ar decide, China ar putea „grupa mai multe cipuri” pentru a crește rapid capacitatea efectiv utilizată și adaugă că abilitatea Chinei de a produce cipuri este „una dintre cele mai mari din lume”. De ce contează: legătura cu modelele pentru securitate cibernetică Declarațiile vin pe fondul atenției crescute pentru modele de IA orientate spre securitate. TechRadar notează că Mythos este o componentă-cheie a Project Glasswing, o inițiativă de securitate cibernetică condusă de Anthropic împreună cu lideri din tehnologie, care urmărește identificarea și remedierea vulnerabilităților din software critic. În paralel, publicația amintește că OpenAI a prezentat GPT-5.4-Cyber, descris drept un „rival” al Mythos, destinat profesioniștilor din securitate pentru a detecta atacuri mai avansate. Huang: SUA „trebuie să câștige”, dar dialogul cu China e „mai sigur” Deși spune explicit că „vrem ca Statele Unite să câștige”, Huang argumentează că o abordare exclusiv adversarială poate fi contraproductivă și pledează pentru dialog între cercetători, inclusiv pentru a stabili limite de utilizare: „Este esențial ca cercetătorii noștri în IA și cercetătorii lor în IA să vorbească.” „Cred că a avea un dialog și un dialog de cercetare este probabil cel mai sigur lucru de făcut.” În același timp, el nu neagă statutul de adversar, spunând că „victimizarea” și transformarea Chinei într-un inamic „probabil nu este cel mai bun răspuns”, dar adaugă: „Ei sunt un adversar.” Ce rămâne neclar Materialul nu oferă cifre concrete despre dimensiunea capacității de calcul din China sau despre cât din aceasta este efectiv neutilizată; evaluarea este prezentată ca aprecierea lui Jensen Huang, în cadrul podcastului. [...]

OpenAI extinde Codex dincolo de programare, cu „agenți” care pot lucra în fundal pe PC , o schimbare cu impact operațional direct pentru echipele care vor să automatizeze sarcini repetitive fără integrare prin API, potrivit Ars Technica . Actualizarea vizează aplicația desktop Codex și ajunge la utilizatori „astăzi”, scrie publicația, descriind un pachet mai larg de funcții care merge de la capabilități noi pentru dezvoltatori până la extinderea către „muncă de cunoaștere” (sarcini de birou care nu sunt neapărat programare) și pregătirea terenului pentru ceea ce compania numește o viitoare „super aplicație”. Lucru în fundal pe computer: automatizare fără să „încurce” utilizatorul Elementul central al update-ului este „background computer use”: Codex poate executa sarcini pe PC „în fundal”, iar OpenAI susține că acest lucru se poate face fără să interfereze cu ce face utilizatorul pe desktop. În explicația OpenAI, Codex poate folosi aplicațiile de pe computer „văzând”, dând click și tastând cu propriul cursor. Totodată, „mai mulți agenți” pot lucra în paralel pe Mac, fără să afecteze munca utilizatorului în alte aplicații. Pentru dezvoltatori, compania indică utilizări precum iterarea modificărilor de interfață (frontend), testarea aplicațiilor sau lucrul în aplicații care nu expun un API (interfață de programare). Programare de sarcini și instrumente noi în aplicație Pe lângă lucrul în fundal, Codex primește și o funcție de programare: poate planifica activități pentru mai târziu — „ore, zile sau chiar săptămâni” — și se poate „trezi” singur ca să le execute la momentul potrivit. Aplicația include acum și: un browser web în aplicație , pentru a evalua munca pe experiențe web și pentru a lăsa comentarii punctuale pe pagină, într-un mod similar instrumentelor folosite deja în organizații pentru feedback către designeri și dezvoltatori; posibilitatea de a folosi gpt-image-1.5 pentru generare de imagini care pot fi incluse în machete (mockup-uri) și materiale similare. OpenAI a detaliat schimbările într-o postare pe blog, menționată de Ars Technica: OpenAI . [...]

OpenAI extinde Codex dincolo de programare, transformându-l într-un agent care poate folosi aplicații, naviga pe web și genera imagini , o mutare care pregătește terenul pentru viitoarea „super aplicație” desktop a companiei, potrivit Engadget . În loc să lanseze acum aplicația unificată, OpenAI livrează o actualizare majoră a Codex care arată direcția: un produs mai „generalist”, capabil să lucreze pe o suprafață mai mare de sarcini și instrumente. Ce se schimbă operațional: Codex devine un agent „multi-rol” Actualizarea aduce în Codex funcții care îl apropie de un asistent de lucru complet, nu doar de un instrument de scris cod: „Computer use” : agenții din Codex pot interacționa cu alte aplicații de pe PC. Utilizatorul poate indica un program anume sau poate lăsa modelul să aleagă aplicația potrivită pentru sarcină. OpenAI susține că are un avantaj printr-o soluție care permite rularea aplicațiilor fără să „îngreuneze” întregul sistem, astfel încât utilizatorul și agentul să poată lucra în paralel. 111 pluginuri noi : OpenAI lansează 111 extensii care combină abilități, integrări cu aplicații și conexiuni la servere prin „model context protocol” (un mecanism de conectare la surse de context și instrumente), pentru a crește capacitatea Codex de a strânge context și de a folosi uneltele pe care se bazează dezvoltatorii. Browser integrat : include un sistem de comentarii care permite cereri punctuale pentru modificări pe porțiuni specifice dintr-o pagină web sau aplicație web (în demonstrația OpenAI, Codex a fost folosit pentru ajustarea marginilor unui grafic). Generare de imagini în aplicație : Codex poate folosi gpt-image-1.5 pentru concepte de produs, machete, design de interfață și resurse pentru jocuri simple; poate utiliza și capturi de ecran pentru a verifica dacă urmează corect cerința utilizatorului. Memorie și proactivitate: pasul către un „asistent” persistent OpenAI prezintă și două funcții de memorie, încă în regim de previzualizare: Codex poate reține context din sarcini anterioare pentru a informa cererile viitoare; compania spune că, în timp, asta ar trebui să ducă la execuție mai rapidă și rezultate mai bune. Pe baza contextului acumulat, aplicația poate sugera acțiuni proactive (exemplul dat: recomandarea de a răspunde la un comentariu lăsat de un coleg într-un document Google). Șeful Codex, Thibault Sottiaux , a încadrat strategia ca dezvoltare „la vedere”, cu o extindere ulterioară dincolo de dezvoltatori: „Construim super aplicația la vedere. Această lansare este despre dezvoltatori. În viitor, o vom extinde către un public mai larg.” Disponibilitate: lansare graduală, cu limitări regionale Noua versiune începe să fie distribuită utilizatorilor aplicației desktop care sunt autentificați cu contul de ChatGPT. Funcția de „computer use” ajunge mai întâi pe macOS , iar disponibilitatea pentru utilizatorii din UE și Regatul Unit urmează ulterior. La fel, utilizatorii din Marea Britanie și Europa vor trebui să aștepte pentru funcțiile de memorie. [...]

Peste 50 de directori de resurse umane din companii Fortune 500 au discutat la New York despre cum accelerează adoptarea AI la locul de muncă , într-un summit „Leading the AI Transformation” organizat de Grow with Google , potrivit Google . Miza întâlnirii a fost una operațională: cum își pregătesc organizațiile oamenii și procesele pentru folosirea inteligenței artificiale (AI) în activitatea curentă, nu doar ca proiect tehnologic. Evenimentul a reunit, la biroul Google din New York, directori de resurse umane (CHRO) și lideri de „learning & development” (formare și dezvoltare) din companii Fortune 500, cu obiectivul de a-i „echipa” pentru a conduce adoptarea AI și pentru a pune accent pe felul în care oamenii folosesc AI pentru a „debloca” potențial nou. Trei idei de implementare: decizie, mentalitate, exemplu de la vârf Google rezumă discuțiile în trei direcții care țin de managementul schimbării și de guvernanța internă a adoptării AI: AI este o alegere, nu o inevitabilitate. Profesorul David Autor a susținut că viitorul nu este un exercițiu de prognoză, ci o „alegere de proiectare”, ceea ce implică faptul că organizațiile decid cum integrează AI în echipe. Pentru liderii HR și de formare, asta înseamnă un rol activ în a trata AI ca „colaborator” care crește potențialul uman. „Mentalitatea AI” cere curiozitate și curaj, nu doar noțiuni de bază. Ca exemple, Google indică faptul că Walmart oferă „Google AI Professional Certificate” pentru 1,6 milioane de angajați, iar Citi își instruiește întreaga forță de muncă despre cum să scrie „prompturi” (instrucțiuni pentru modele AI). Transformarea începe când liderii dau tonul. Mesajul transmis este că managementul trebuie să folosească instrumente AI și să modeleze „experimentarea responsabilă”, pentru a da echipelor spațiu să testeze și să învețe. De ce contează pentru companii Din perspectiva operațională, mesajul central al summitului este că adoptarea AI este tratată ca un proiect de resurse umane și de competențe, nu doar ca o implementare IT: instruirea la scară mare, schimbarea obiceiurilor de lucru și implicarea conducerii sunt prezentate ca elemente-cheie pentru ca AI să ajungă în activitatea de zi cu zi. Google nu oferă în material detalii despre rezultate măsurabile ale summitului sau despre un calendar de implementare în companiile participante. [...]