Știri
Știri din categoria Inteligență artificială

OpenAI împinge ChatGPT spre un instrument complet de producție vizuală, odată cu ChatGPT Images 2.0, care promite automatizare „cap-coadă” pentru sarcini vizuale și capacitatea de a căuta și sintetiza informații de pe web în imagini detaliate, potrivit GSMArena. Miza practică pentru utilizatori și companii este reducerea dependenței de aplicații dedicate de editare, cu funcții integrate direct în ChatGPT.
Noua versiune vine la un an după Images 1.0 și este prezentată ca un generator de imagini cu „capabilități de gândire”, orientat către livrabile „la nivel de producție”. Concret, modelul poate documenta și combina informații din web pentru a construi vizualuri mai complexe, nu doar imagini „artistice” pe baza unui prompt.
OpenAI poziționează Images 2.0 ca înlocuitor pentru aplicații de editare foto, prin funcții care țintesc fluxuri uzuale de lucru:
GSMArena notează că Images 2.0 ar fi mai bun la generarea de infografice și diagrame, cu fidelitate semnificativ îmbunătățită și suport mai bun pentru o varietate mai mare de limbi. Totodată, modelul ar urma să respecte mai bine instrucțiunile din prompt și să păstreze detaliile cerute.
Images 2.0 este disponibil pentru toți utilizatorii ChatGPT, însă modul „Images with thinking” este rezervat abonamentelor Plus, Pro, Business și Enterprise. În practică, asta separă funcțiile avansate (cele care implică „gândire”/sinteză) într-o zonă plătită, relevantă mai ales pentru utilizare profesională.
Recomandate

OpenAI își extinde generatorul de imagini în ChatGPT cu două moduri, dintre care unul este rezervat abonaților plătitori , într-o mișcare care poate conta direct în competiția pentru utilizatori și venituri recurente înaintea unei posibile listări la bursă, potrivit Gizmodo . Noul model, numit „ ChatGPT Images 2.0 ”, a fost prezentat într-un livestream, iar compania îl descrie drept un salt major față de versiunile anterioare. În materialul promoțional difuzat înaintea evenimentului, OpenAI îl numește o „renaștere” a generării de imagini, iar CEO-ul Sam Altman a susținut că progresul ar fi comparabil cu „trecerea de la GPT-3 la GPT-5 dintr-odată”. Ce se schimbă operațional: două moduri și acces diferențiat Modelul vine cu două moduri de utilizare: „Instant” : un mod rapid, descris ca o versiune revizuită a unui generator tipic de imagini; este disponibil „acum” pentru toți utilizatorii ChatGPT și pentru utilizatorii de API. „Thinking” : un mod mai complex, disponibil doar pentru abonații Plus, Pro și Business . OpenAI susține că noul model are capabilități multilingve, „inteligență vizuală” mai bună și o atenție mai mare la detalii. Cercetătorii companiei au afirmat că greșelile de tipar sunt „foarte rare”. De ce contează pentru business: utilizatori, abonamente și o posibilă IPO Gizmodo leagă lansarea de eforturile OpenAI de a-și îmbunătăți profilul financiar înaintea unei IPO despre care se spune că ar putea avea loc chiar în acest an. Publicația notează că firma ar fi încă departe de profitabilitate, în pofida creșterii cheltuielilor, și menționează că OpenAI a trecut la o structură de „public benefit corporation” cu scop lucrativ și ar fi renunțat la generatorul video Sora pentru a reduce costurile. În acest context, un nou val de popularitate pentru generarea de imagini ar putea ajuta ChatGPT să crească indicatori urmăriți de investitori, precum utilizatorii activi. OpenAI a anunțat în februarie că ChatGPT a depășit 900 de milioane de utilizatori activi săptămânal , iar Gizmodo sugerează că Images 2.0 ar putea împinge cifra spre pragul de 1 miliard . Miza competitivă: presiune din partea Google și Anthropic Articolul plasează lansarea și în logica rivalității cu Google și Anthropic. Gizmodo amintește că Google și-a actualizat anul trecut generatorul de imagini „Nano Banana Pro” și a lansat Gemini 3, iar OpenAI ar fi declarat intern „cod roșu” după reacția pozitivă la aceste produse. În paralel, Anthropic ar fi câștigat teren cu modele „agentice” (capabile să execute sarcini mai autonom), precum Claude Cowork și Claude Code. În plus, Gizmodo menționează un raport The Wall Street Journal (fără a oferi link în textul extras) potrivit căruia și CEO-ul Nvidia, Jensen Huang, ar fi îngrijorat de poziția OpenAI pe piață; un succes al noului generator de imagini ar putea reduce aceste temeri. Limitări și semne de întrebare Deși OpenAI promovează acuratețea, Gizmodo notează că imagini atribuite modelului apărute pe platforme de testare ar fi inclus și erori evidente, precum o hartă a lumii cu țări inventate și capitale plasate greșit (de exemplu, Nairobi poziționat în Arabia Saudită). OpenAI ar fi confirmat în livestream că modelul fusese testat pe platforme terțe sub nume de cod diferite. Pentru utilizatori și companii, diferența practică imediată rămâne accesul: capabilitățile avansate sunt împinse în zona de abonament, ceea ce poate transforma generatorul de imagini într-un instrument de conversie către planurile plătite, nu doar într-o funcție „virală”. [...]

OpenAI ar urma să parieze până la 1,5 miliarde de dolari pe un vehicul dedicat clienților corporate , printr-o structură de tip joint venture care promite randamente fixe investitorilor și ar accelera adoptarea instrumentelor sale în companii, potrivit IT之家 , care citează Financial Times. Informația indică o mutare cu miză operațională și financiară: OpenAI ar intenționa să investească până la 1,5 miliarde de dolari (aprox. 6,9 miliarde lei) într-o entitate nouă, descrisă ca fiind „intern” numită DeployCo , creată împreună cu mai multe firme de investiții de tip private equity (fonduri care cumpără și finanțează companii nelistate). Cum ar arăta tranzacția și de ce contează pentru piața enterprise Conform materialului, OpenAI ar urma să înceapă cu o injecție de capital de 500 milioane de dolari în acțiuni, iar DeployCo ar putea ajunge la o evaluare de 10 miliarde de dolari într-o rundă de finanțare așteptată să se încheie la începutul lunii mai. DeployCo este descrisă ca o societate cu răspundere limitată înregistrată în statul Delaware (SUA), iar scopul ei ar fi să grăbească utilizarea pe scară largă a instrumentelor de birou ale OpenAI, fiind prezentată drept o piesă centrală în strategia de extindere pe piața de inteligență artificială pentru companii. Structura de finanțare: randament anual „promis” și control prin drepturi de vot În aceeași relatare, investitorii de private equity ar urma să facă o investiție pe cinci ani, iar OpenAI ar fi angajat un randament anualizat de 17,5% pentru aceștia. Totodată, OpenAI ar urma să dețină acțiuni cu drepturi de vot „superioare” (super voting), un mecanism care îi poate păstra controlul asupra deciziilor chiar și în prezența unor finanțări mari din exterior. Pe lângă suma inițială, OpenAI ar mai putea alege să adauge încă 1 miliard de dolari, iar investitorii – menționați ca incluzând TPG, Bain Capital, Thoma Bravo, Brookfield și Goanna Capital – ar urma să contribuie separat cu 4 miliarde de dolari. Context: competiția pentru bugetele companiilor IT之家 notează că Reuters a relatat în martie că OpenAI și rivalul Anthropic caută activ parteneriate cu fonduri de private equity, care controlează portofolii mari de clienți corporate și influențează deciziile de cheltuieli în software și AI. În același timp, OpenAI ar intensifica investițiile în zona enterprise, unde percepția din piață ar fi că Anthropic are un avans, cu o acoperire mai largă în rândul clienților companii. Informațiile sunt prezentate ca „surse” și „persoane familiarizate cu subiectul”, ceea ce înseamnă că detaliile pot suferi modificări până la confirmări oficiale. [...]

Google face disponibil „în producție” Gemini Embedding 2 , un model de „embedding” (reprezentări numerice folosite la căutare și potrivire semantică) care poate lucra nativ cu mai multe tipuri de date, potrivit Google Blog . Miza pentru companii și dezvoltatori este operațională: trecerea de la prototipuri la sisteme stabile, optimizate, care pot căuta și „raționa” peste text, imagini, video și audio fără lanțuri tehnice fragmentate. Disponibilitatea generală (general availability) înseamnă, în termeni practici, că Google consideră produsul suficient de matur pentru utilizare la scară largă, cu stabilitatea și optimizările necesare pentru implementări în medii de producție. Accesul se face prin Gemini API și prin Vertex AI, platforma Google pentru dezvoltarea și rularea aplicațiilor de inteligență artificială. Ce problemă încearcă să rezolve În perioada de previzualizare, utilizatorii au construit prototipuri precum motoare avansate de descoperire pentru comerț electronic și instrumente mai eficiente de analiză video, notează compania. Exemplele sunt relevante pentru că indică tipul de aplicații unde „embedding”-urile multimodale pot reduce complexitatea: în loc de fluxuri separate pentru text, imagine sau video, un singur sistem poate indexa și interoga mai multe formate. Google argumentează că această abordare răspunde unei nevoi tot mai frecvente în organizații: sisteme care pot face căutare și inferență peste date eterogene (text, imagine, video, audio), unde anterior era nevoie de „pipeline”-uri (lanțuri de procesare) complexe și fragmentate. Ce se schimbă pentru dezvoltatori și companii Odată cu trecerea la disponibilitate generală, Google poziționează Gemini Embedding 2 ca tehnologie pregătită pentru producție, cu accent pe: stabilitate pentru rulare în aplicații comerciale; optimizări pentru implementări la scară; integrare prin canale standard pentru clienți: Gemini API și Vertex AI. Compania mai precizează că modelul este parte dintr-o categorie de tehnologii care alimentează multe produse Google și că își propune să transfere aceste rezultate de cercetare către comunitatea de dezvoltatori. Ce urmează Materialul nu oferă detalii despre prețuri, niveluri de performanță sau limite tehnice, astfel că impactul financiar direct (costuri per apel, condiții comerciale) nu poate fi evaluat din această sursă. Din informațiile publicate, concluzia principală este că Google împinge explicit Gemini Embedding 2 din zona de test în zona de implementare operațională, prin canale enterprise (Vertex AI) și prin API-ul Gemini. [...]

Marile companii trec de la testele cu AI la implementări la scară, iar agenții autonomi ajung să preia sarcini operaționale critice – de la testare software și suport clienți până la cercetare și securitate cibernetică – potrivit unei treceri în revistă publicate de Google Blog , pe baza proiectelor prezentate la conferința Google Cloud Next ’26 din Las Vegas. Miza economică și operațională a acestei tranziții este că „agenții” (sisteme AI care pot executa autonom pași multipli, nu doar răspunsuri punctuale) sunt integrați direct în fluxuri de lucru, cu promisiunea de a reduce timpii de execuție, a scădea costurile și a crește productivitatea. În exemplele oferite, accentul cade pe automatizarea sarcinilor complexe și pe scalarea lor în organizații mari, nu pe experimente de laborator. Ce se schimbă: AI „agentică” intră în producție Materialul descrie ceea ce numește „Agentic Enterprise”, adică o reorganizare a modului în care companiile își desfășoară activitatea prin introducerea de agenți AI în „prima linie” a operațiunilor: în aplicații pentru clienți, în procese interne, în retail, în bănci, în fabrici sau infrastructuri critice. În esență, companiile urmăresc să mute o parte din muncă de la oameni către agenți care: execută sarcini în mai mulți pași (de exemplu, identifică o problemă, propun o soluție și declanșează o acțiune); operează continuu („always-on”) în relația cu clienții sau în procese interne; se bazează pe infrastructură cloud și pe modele AI (în acest caz, produse Google Cloud precum Gemini Enterprise, respectiv TPU – procesoare specializate pentru sarcini AI). Exemplele cu impact operațional: de la minute câștigate la costuri mai mici Cazurile prezentate acoperă industrii diferite, dar au un numitor comun: agenții sunt folosiți pentru a accelera procese și a standardiza execuția. Capcom a construit agenți care automatizează playtesting-ul jocurilor, navigând autonom în lumi digitale pentru a identifica erori și inconsistențe. Compania raportează „peste 30.000 de ore de testare pe lună” înregistrate de acești agenți, ceea ce ar elibera echipele pentru muncă creativă. Home Depot folosește un agent digital („Magic Apron”) pentru a oferi asistență clienților cu informații despre produse și proiecte, iar un agent telefonic bazat pe AI ar reduce fricțiunea din interacțiunile prin call center. Într-un pilot la nivel național, agentul telefonic ar fi putut identifica nevoile apelantului „în 10 secunde”, potrivit descrierii din material. Citadel Securities indică un beneficiu direct de eficiență și cost: un mediu de cercetare în cloud care rulează sarcini AI „de până la patru ori mai repede” și cu „costuri mai mici cu 30%”, folosind cipuri TPU (Tensor Processing Unit) de la Google. Tata Steel spune că a implementat „peste 300” de agenți specializați în „nouă luni”, inclusiv printr-o platformă low-code (dezvoltare cu puțin cod) care ar permite și angajaților non-specialiști să construiască și să ruleze agenți. Unde se vede cel mai clar „pariul” financiar: Merck și standardizarea la nivel de grup Dintre exemple, cel mai explicit ca dimensiune a investiției este Merck , care ar urma să implementeze o platformă „agentică” în cercetare-dezvoltare, producție și operațiuni comerciale și corporative. Investiția este descrisă ca fiind „evaluată la până la 1 miliard de dolari (aprox. 4,6 miliarde lei)”, incluzând ingineri Google Cloud care lucrează alături de echipele Merck. Obiectivul menționat: digitalizarea datelor și creșterea productivității pentru „75.000 de angajați” la nivel global. În paralel, Mars a ales Gemini Enterprise ca „sistem de operare AI” principal pentru forța sa de muncă globală, cu scopul de a reduce fragmentarea internă a instrumentelor AI și de a oferi capabilități „agentice” pentru sarcini complexe, în mai mulți pași. Securitate și servicii: Vodafone mizează pe agenți pentru IMM-uri În zona de servicii pentru companii, Vodafone Business este prezentată ca lansând: un serviciu de „managed detection and response” (detectare și răspuns gestionate, adică monitorizare și intervenție la incidente de securitate) bazat pe Google Security Operations; „Vodafone Business AI Concierge” cu Google Gemini, descris ca primul dintr-o suită planificată de soluții agentice, capabil să opereze autonom într-un mediu de business și să folosească voce și date (multi-modal). Ce urmează și limita informațiilor Textul nu oferă date comparative independente despre rezultate financiare (economii totale, creșteri de venit, ROI) și nici termene ferme de implementare pentru toate proiectele; multe afirmații sunt prezentate ca descrieri ale companiilor și ale Google Cloud. Totuși, direcția este explicită: agenții AI sunt poziționați ca instrumente de execuție la scară, integrate în operațiuni, nu ca funcții izolate de tip „asistent”. Un semnal pentru piață este că exemplele includ atât proiecte orientate către clienți (retail, concierge), cât și infrastructură internă (cercetare, productivitate, securitate), ceea ce sugerează că următorul val de adopție va fi decis de capacitatea companiilor de a integra agenții în procese, date și guvernanță, nu doar de accesul la modele AI. [...]

ByteDance a pus Seed3D 2.0 la dispoziția dezvoltatorilor prin API, mizând pe un salt de calitate în generarea 3D – atât pe geometrie, cât și pe texturi/materiale – potrivit IT之家 . Compania spune că noul model generativ 3D atinge rezultate de tip SOTA (cea mai bună performanță cunoscută pe un anumit test) pe doi indicatori-cheie: generarea geometrică și generarea de texturi/materiale. Seed3D 2.0 are, conform ByteDance, o redare mai fină a structurilor complexe, iar materialele PBR (randare „bazată pe fizică”, folosită pentru a simula realist interacțiunea luminii cu suprafețele) sunt generate cu mai mult realism și stabilitate. Raportul tehnic al modelului este public, iar API-ul este deja disponibil în Volcano Engine (platforma de cloud a ByteDance). Ce arată evaluarea: avantaj pe geometrie și texturi ByteDance afirmă că a recrutat 60 de evaluatori umani cu experiență în modelare 3D, care au comparat „în orb” (fără să știe ce model a generat rezultatul) Seed3D 2.0 cu șase modele 3D „mainstream”, în comparații perechi. Evaluarea a fost împărțită în două părți: comparație pentru generare de structură geometrică „pură”; comparație pentru generare 3D cu texturi aplicate. În testele de geometrie, compania susține că Seed3D 2.0 a avut un avantaj „semnificativ”, cu o rată de preferință mai mare decât toate celelalte modele comparate. Pentru generarea 3D cu texturi, ByteDance spune că modelul a rămas lider, iar rata de preferință a depășit 69% în raport cu modelele considerate de referință în industrie. Ce schimbă tehnic Seed3D 2.0 și de ce contează operațional Din rezumatul raportului tehnic, Seed3D 2.0 introduce o strategie de generare în două etape „Coarse-to-Fine”, care separă „structura de ansamblu” de „detaliile geometrice” și le optimizează separat. Ținta este să îmbunătățească zonele dificile pentru generarea 3D, precum muchii ascuțite, structuri cu pereți subțiri și topologii complexe. Pe partea de texturi/materiale, modelul folosește un model unificat pentru generarea completă a hărților PBR și o arhitectură MoE ( Mixture of Experts – „amestec de experți”, o tehnică prin care părți specializate ale modelului sunt activate în funcție de sarcină) pentru a crește detaliul la rezoluții mari și precizia marginilor. ByteDance mai menționează introducerea unui „VLM prior” (un „prior” provenit dintr-un model vizual-lingvistic, adică un model care combină înțelegerea imaginilor cu cea a limbajului) pentru a îmbunătăți stabilitatea și acuratețea „descompunerii” materialelor în condiții de iluminare necunoscută. Unde vrea ByteDance să ducă modelul: de la obiecte la scene și active utilizabile Dincolo de geometrie și texturi, Seed3D 2.0 ar putea genera și funcții orientate spre utilizare practică, potrivit descrierii din material: segmentare și completare la nivel de componente; generare de „active” articulate (obiecte cu părți mobile); compunere de scene pe baza imaginilor, videoclipurilor sau textului. Mesajul implicit este că modelul nu vizează doar demonstrații vizuale, ci și integrarea în fluxuri de lucru unde contează consistența și controlul – iar faptul că API-ul este deja disponibil indică o direcție de comercializare și utilizare în aplicații. Pentru detalii tehnice, ByteDance a publicat raportul Seed3D 2.0 (link menționat în materialul sursă). [...]

X își leagă personalizarea de abonament: fluxul AI cu peste 75 de teme e disponibil, deocamdată, doar pentru Premium pe iOS , potrivit IT Home . Funcția permite utilizatorilor să fixeze pe pagina principală subiecte specifice, astfel încât să-și construiască un „feed” (flux de postări) mai relevant pentru domeniile urmărite. Noul mod de afișare este susținut de Grok AI , modelul care, conform informațiilor din material, folosește înțelegerea mecanismelor de personalizare ale platformei pentru a filtra mai precis conținutul. Sistemul ar acoperi peste 75 de arii tematice, de la design și robotică până la imobiliare, iar X susține că filtrarea devine mai exactă pentru subiectele cu care utilizatorul a interacționat deja. Cine are acces și ce urmează În forma actuală, funcția este disponibilă doar pentru utilizatorii Premium care folosesc aplicația pe iOS. Setarea se face din zona etichetei „Urmărești”, unde apare un buton de adăugare pentru selectarea temelor ce pot fi fixate pe pagina principală. Compania a confirmat că versiunea pentru Android „va fi lansată în curând”, fără un calendar precis. Un instrument separat: „pauză” pe anumite subiecte Pe lângă fluxul personalizat, X a introdus și un instrument care permite „pauzarea” unor teme în zona de recomandări. Utilizatorii pot ascunde temporar tipuri de postări precum cele politice sau sportive, pentru a reduce conținutul considerat irelevant. [...]