Știri
Știri din categoria Inteligență artificială

ByteDance a pus Seed3D 2.0 la dispoziția dezvoltatorilor prin API, mizând pe un salt de calitate în generarea 3D – atât pe geometrie, cât și pe texturi/materiale – potrivit IT之家. Compania spune că noul model generativ 3D atinge rezultate de tip SOTA (cea mai bună performanță cunoscută pe un anumit test) pe doi indicatori-cheie: generarea geometrică și generarea de texturi/materiale.
Seed3D 2.0 are, conform ByteDance, o redare mai fină a structurilor complexe, iar materialele PBR (randare „bazată pe fizică”, folosită pentru a simula realist interacțiunea luminii cu suprafețele) sunt generate cu mai mult realism și stabilitate. Raportul tehnic al modelului este public, iar API-ul este deja disponibil în Volcano Engine (platforma de cloud a ByteDance).
ByteDance afirmă că a recrutat 60 de evaluatori umani cu experiență în modelare 3D, care au comparat „în orb” (fără să știe ce model a generat rezultatul) Seed3D 2.0 cu șase modele 3D „mainstream”, în comparații perechi.
Evaluarea a fost împărțită în două părți:
În testele de geometrie, compania susține că Seed3D 2.0 a avut un avantaj „semnificativ”, cu o rată de preferință mai mare decât toate celelalte modele comparate. Pentru generarea 3D cu texturi, ByteDance spune că modelul a rămas lider, iar rata de preferință a depășit 69% în raport cu modelele considerate de referință în industrie.
Din rezumatul raportului tehnic, Seed3D 2.0 introduce o strategie de generare în două etape „Coarse-to-Fine”, care separă „structura de ansamblu” de „detaliile geometrice” și le optimizează separat. Ținta este să îmbunătățească zonele dificile pentru generarea 3D, precum muchii ascuțite, structuri cu pereți subțiri și topologii complexe.
Pe partea de texturi/materiale, modelul folosește un model unificat pentru generarea completă a hărților PBR și o arhitectură MoE (Mixture of Experts – „amestec de experți”, o tehnică prin care părți specializate ale modelului sunt activate în funcție de sarcină) pentru a crește detaliul la rezoluții mari și precizia marginilor. ByteDance mai menționează introducerea unui „VLM prior” (un „prior” provenit dintr-un model vizual-lingvistic, adică un model care combină înțelegerea imaginilor cu cea a limbajului) pentru a îmbunătăți stabilitatea și acuratețea „descompunerii” materialelor în condiții de iluminare necunoscută.
Dincolo de geometrie și texturi, Seed3D 2.0 ar putea genera și funcții orientate spre utilizare practică, potrivit descrierii din material:
Mesajul implicit este că modelul nu vizează doar demonstrații vizuale, ci și integrarea în fluxuri de lucru unde contează consistența și controlul – iar faptul că API-ul este deja disponibil indică o direcție de comercializare și utilizare în aplicații. Pentru detalii tehnice, ByteDance a publicat raportul Seed3D 2.0 (link menționat în materialul sursă).
Recomandate

Google aduce în România Pomelli , un instrument cu inteligență artificială care poate reduce costurile și timpul de producție pentru materiale de marketing ale firmelor mici , prin generarea rapidă de imagini, clipuri video și propuneri de campanii, potrivit Paginademedia . Pomelli este un experiment dezvoltat de Google Labs în parteneriat cu Google DeepMind și este disponibil „din aceste zile” în România, dar și în Uniunea Europeană, Norvegia, Elveția și Marea Britanie. Instrumentul funcționează, deocamdată, în limba engleză. Cum funcționează Pomelli, în practică Platforma folosește AI pentru a „înțelege” o afacere și a genera conținut personalizat în trei pași: Analiză : scanează site-ul companiei pentru a identifica elemente precum comunicarea de brand, mesaje, fonturi și culori. Generare de propuneri : sugerează idei de conținut și campanii pe baza identității identificate; utilizatorul poate rafina rezultatele prin comenzi conversaționale. Creație : produce conținut pentru social media, site sau reclame (imagini și video), care poate fi editat sau descărcat direct, inclusiv pentru fotografii de produs ori „sesiuni foto” pentru produse și servicii. Limitări și ce înseamnă pentru utilizatorii din România În forma actuală, Pomelli generează imagini și clipuri video cu text în engleză, iar interacțiunea cu utilizatorul este tot în engleză. Platforma permite însă editarea textelor, astfel încât acestea pot fi modificate și adaptate în limba română. Instrumentul are și o versiune de mobil, conform aceleiași surse. [...]

Autoritățile americane cresc presiunea pentru reguli mai stricte la AI , după ce cercetători au demonstrat în fața Congresului cât de ușor pot fi „deblocate” modele de inteligență artificială pentru a furniza instrucțiuni utile în scenarii violente, de la construirea unei bombe la planificarea unui atac terorist, potrivit G4Media . Demonstrația a avut loc la Washington, într-un briefing cu ușile închise organizat de Centrul pentru Inovare în Combaterea Terorismului și Comisia pentru Securitate Internă a Camerei Reprezentanților . Membrii Congresului au putut testa direct modele „jailbroken” (sisteme din care au fost eliminate mecanismele de siguranță), potrivit Politico, citat în material. Informația despre briefing este transmisă de MEDIAFAX, conform aceleiași surse. Ce au testat congresmenii: modele cu protecții vs. modele „fără frâne” Autoritățile americane pentru securitate internă au prezentat diferența dintre modelele obișnuite, care refuză solicitările periculoase, și cele „abliterate”, la care mecanismul de refuz este dezactivat. Într-un test, cercetătorii au cerut ambelor tipuri de modele să elaboreze un plan de atac asupra evenimentului „America 250” din Washington, programat în această vară și dedicat împlinirii a 250 de ani de la independența SUA. Modelul cu protecții a refuzat cererea, invocând imposibilitatea de a oferi informații despre activități ilegale, în timp ce varianta fără restricții a generat instrucțiuni detaliate, pas cu pas, pentru comiterea unui atac. Congresmanul republican Gabe Evans, citat de Politico, a descris miza acestor teste: „Ceea ce am văzut acolo este ce se întâmplă când scoți aceste bariere și întrebi: «Cum fac o bombă nucleară?»” El a adăugat că modelele fără protecții „oferă răspunsuri la toate aceste lucruri”. Viteză și granularitate: „în mai puțin de trei secunde” Președintele comisiei, Andrew Garbarino, a relatat că a întrebat un model AI cum ar putea fi răpit un membru al Congresului. „A generat un răspuns în mai puțin de trei secunde, cu metode, locuri și momente potrivite”, a afirmat acesta. Cum sunt ocolite filtrele și de ce contează pentru reglementare Deși majoritatea modelelor sunt lansate cu mecanisme de siguranță, cercetătorii și hackerii au descoperit că acestea pot fi ocolite relativ ușor. Printre metodele menționate se numără formularea solicitărilor în limbaj tehnic sau academic, astfel încât sistemele să nu le identifice ca fiind periculoase. Autoritățile avertizează că astfel de instrumente sunt deja folosite în scopuri ostile, de la campanii de dezinformare până la tentative de atacuri cibernetice automatizate. În acest context, presiunea asupra companiilor care dezvoltă AI crește, pentru întărirea măsurilor de siguranță și limitarea accesului la conținut periculos. La nivel federal, procesul de reglementare avansează lent în Congres, însă mai multe state americane au început să adopte propriile reguli, încercând să impună standarde mai stricte pentru utilizarea și controlul acestor tehnologii. Congresmanul republican August Pfluger a rezumat îngrijorarea legată de limitele sistemelor: „Este foarte înfricoșător pentru că AI-ul ar trebui să aibă limite clare”. [...]

Google mută masiv munca de programare către IA, iar inginerii ajung să supervizeze codul : în prezent, 75% din codul scris pentru propriile produse este generat de inteligența artificială, potrivit Profit . Schimbarea contează operațional pentru o companie care dezvoltă la scară globală, pentru că redefinește rolul echipelor tehnice și ritmul de livrare al produselor. În acest model, inginerii software care nu mai scriu efectiv cod au rolul de a superviza codul produs de IA, pe măsură ce tehnologia „devine din ce în ce mai bună la programare”, notează publicația. Un exemplu invocat de CEO-ul Google, Sundar Pichai , indică impactul asupra vitezei de execuție: o migrare de cod „deosebit de complexă”, realizată cu „agenți” (instrumente software bazate pe IA care execută sarcini) și ingineri lucrând împreună, ar fi fost finalizată de șase ori mai repede decât era posibil cu un an în urmă, când procesul se baza doar pe ingineri. „Recent, o migrare de cod deosebit de complexă, realizată de agenți și ingineri care au lucrat împreună, a fost finalizată de șase ori mai repede decât era posibil acum un an doar cu ingineri”, spune Sundar Pichai. Ce se schimbă în practică Din informațiile prezentate, tranziția are două efecte directe în organizație: o parte semnificativă din scrierea codului este transferată către IA (75% din total, conform Google); rolul inginerilor se mută spre control, verificare și coordonare a codului generat automat, nu doar spre implementare manuală. Articolul nu oferă detalii despre ce produse sau ce tipuri de proiecte sunt incluse în acest procent și nici despre modul în care Google măsoară „codul scris” de IA, astfel că amploarea exactă pe echipe și arii rămâne neprecizată în materialul citat. [...]

Google face disponibil „în producție” Gemini Embedding 2 , un model de „embedding” (reprezentări numerice folosite la căutare și potrivire semantică) care poate lucra nativ cu mai multe tipuri de date, potrivit Google Blog . Miza pentru companii și dezvoltatori este operațională: trecerea de la prototipuri la sisteme stabile, optimizate, care pot căuta și „raționa” peste text, imagini, video și audio fără lanțuri tehnice fragmentate. Disponibilitatea generală (general availability) înseamnă, în termeni practici, că Google consideră produsul suficient de matur pentru utilizare la scară largă, cu stabilitatea și optimizările necesare pentru implementări în medii de producție. Accesul se face prin Gemini API și prin Vertex AI, platforma Google pentru dezvoltarea și rularea aplicațiilor de inteligență artificială. Ce problemă încearcă să rezolve În perioada de previzualizare, utilizatorii au construit prototipuri precum motoare avansate de descoperire pentru comerț electronic și instrumente mai eficiente de analiză video, notează compania. Exemplele sunt relevante pentru că indică tipul de aplicații unde „embedding”-urile multimodale pot reduce complexitatea: în loc de fluxuri separate pentru text, imagine sau video, un singur sistem poate indexa și interoga mai multe formate. Google argumentează că această abordare răspunde unei nevoi tot mai frecvente în organizații: sisteme care pot face căutare și inferență peste date eterogene (text, imagine, video, audio), unde anterior era nevoie de „pipeline”-uri (lanțuri de procesare) complexe și fragmentate. Ce se schimbă pentru dezvoltatori și companii Odată cu trecerea la disponibilitate generală, Google poziționează Gemini Embedding 2 ca tehnologie pregătită pentru producție, cu accent pe: stabilitate pentru rulare în aplicații comerciale; optimizări pentru implementări la scară; integrare prin canale standard pentru clienți: Gemini API și Vertex AI. Compania mai precizează că modelul este parte dintr-o categorie de tehnologii care alimentează multe produse Google și că își propune să transfere aceste rezultate de cercetare către comunitatea de dezvoltatori. Ce urmează Materialul nu oferă detalii despre prețuri, niveluri de performanță sau limite tehnice, astfel că impactul financiar direct (costuri per apel, condiții comerciale) nu poate fi evaluat din această sursă. Din informațiile publicate, concluzia principală este că Google împinge explicit Gemini Embedding 2 din zona de test în zona de implementare operațională, prin canale enterprise (Vertex AI) și prin API-ul Gemini. [...]

Marile companii trec de la testele cu AI la implementări la scară, iar agenții autonomi ajung să preia sarcini operaționale critice – de la testare software și suport clienți până la cercetare și securitate cibernetică – potrivit unei treceri în revistă publicate de Google Blog , pe baza proiectelor prezentate la conferința Google Cloud Next ’26 din Las Vegas. Miza economică și operațională a acestei tranziții este că „agenții” (sisteme AI care pot executa autonom pași multipli, nu doar răspunsuri punctuale) sunt integrați direct în fluxuri de lucru, cu promisiunea de a reduce timpii de execuție, a scădea costurile și a crește productivitatea. În exemplele oferite, accentul cade pe automatizarea sarcinilor complexe și pe scalarea lor în organizații mari, nu pe experimente de laborator. Ce se schimbă: AI „agentică” intră în producție Materialul descrie ceea ce numește „Agentic Enterprise”, adică o reorganizare a modului în care companiile își desfășoară activitatea prin introducerea de agenți AI în „prima linie” a operațiunilor: în aplicații pentru clienți, în procese interne, în retail, în bănci, în fabrici sau infrastructuri critice. În esență, companiile urmăresc să mute o parte din muncă de la oameni către agenți care: execută sarcini în mai mulți pași (de exemplu, identifică o problemă, propun o soluție și declanșează o acțiune); operează continuu („always-on”) în relația cu clienții sau în procese interne; se bazează pe infrastructură cloud și pe modele AI (în acest caz, produse Google Cloud precum Gemini Enterprise, respectiv TPU – procesoare specializate pentru sarcini AI). Exemplele cu impact operațional: de la minute câștigate la costuri mai mici Cazurile prezentate acoperă industrii diferite, dar au un numitor comun: agenții sunt folosiți pentru a accelera procese și a standardiza execuția. Capcom a construit agenți care automatizează playtesting-ul jocurilor, navigând autonom în lumi digitale pentru a identifica erori și inconsistențe. Compania raportează „peste 30.000 de ore de testare pe lună” înregistrate de acești agenți, ceea ce ar elibera echipele pentru muncă creativă. Home Depot folosește un agent digital („Magic Apron”) pentru a oferi asistență clienților cu informații despre produse și proiecte, iar un agent telefonic bazat pe AI ar reduce fricțiunea din interacțiunile prin call center. Într-un pilot la nivel național, agentul telefonic ar fi putut identifica nevoile apelantului „în 10 secunde”, potrivit descrierii din material. Citadel Securities indică un beneficiu direct de eficiență și cost: un mediu de cercetare în cloud care rulează sarcini AI „de până la patru ori mai repede” și cu „costuri mai mici cu 30%”, folosind cipuri TPU (Tensor Processing Unit) de la Google. Tata Steel spune că a implementat „peste 300” de agenți specializați în „nouă luni”, inclusiv printr-o platformă low-code (dezvoltare cu puțin cod) care ar permite și angajaților non-specialiști să construiască și să ruleze agenți. Unde se vede cel mai clar „pariul” financiar: Merck și standardizarea la nivel de grup Dintre exemple, cel mai explicit ca dimensiune a investiției este Merck , care ar urma să implementeze o platformă „agentică” în cercetare-dezvoltare, producție și operațiuni comerciale și corporative. Investiția este descrisă ca fiind „evaluată la până la 1 miliard de dolari (aprox. 4,6 miliarde lei)”, incluzând ingineri Google Cloud care lucrează alături de echipele Merck. Obiectivul menționat: digitalizarea datelor și creșterea productivității pentru „75.000 de angajați” la nivel global. În paralel, Mars a ales Gemini Enterprise ca „sistem de operare AI” principal pentru forța sa de muncă globală, cu scopul de a reduce fragmentarea internă a instrumentelor AI și de a oferi capabilități „agentice” pentru sarcini complexe, în mai mulți pași. Securitate și servicii: Vodafone mizează pe agenți pentru IMM-uri În zona de servicii pentru companii, Vodafone Business este prezentată ca lansând: un serviciu de „managed detection and response” (detectare și răspuns gestionate, adică monitorizare și intervenție la incidente de securitate) bazat pe Google Security Operations; „Vodafone Business AI Concierge” cu Google Gemini, descris ca primul dintr-o suită planificată de soluții agentice, capabil să opereze autonom într-un mediu de business și să folosească voce și date (multi-modal). Ce urmează și limita informațiilor Textul nu oferă date comparative independente despre rezultate financiare (economii totale, creșteri de venit, ROI) și nici termene ferme de implementare pentru toate proiectele; multe afirmații sunt prezentate ca descrieri ale companiilor și ale Google Cloud. Totuși, direcția este explicită: agenții AI sunt poziționați ca instrumente de execuție la scară, integrate în operațiuni, nu ca funcții izolate de tip „asistent”. Un semnal pentru piață este că exemplele includ atât proiecte orientate către clienți (retail, concierge), cât și infrastructură internă (cercetare, productivitate, securitate), ceea ce sugerează că următorul val de adopție va fi decis de capacitatea companiilor de a integra agenții în procese, date și guvernanță, nu doar de accesul la modele AI. [...]

OpenAI împinge ChatGPT spre un instrument complet de producție vizuală , odată cu ChatGPT Images 2.0 , care promite automatizare „cap-coadă” pentru sarcini vizuale și capacitatea de a căuta și sintetiza informații de pe web în imagini detaliate, potrivit GSMArena . Miza practică pentru utilizatori și companii este reducerea dependenței de aplicații dedicate de editare, cu funcții integrate direct în ChatGPT. Noua versiune vine la un an după Images 1.0 și este prezentată ca un generator de imagini cu „capabilități de gândire”, orientat către livrabile „la nivel de producție”. Concret, modelul poate documenta și combina informații din web pentru a construi vizualuri mai complexe, nu doar imagini „artistice” pe baza unui prompt. Înlocuirea aplicațiilor de editare, în aceeași interfață OpenAI poziționează Images 2.0 ca înlocuitor pentru aplicații de editare foto, prin funcții care țintesc fluxuri uzuale de lucru: eliminarea fundalului; schimbarea raportului de aspect (aspect ratio); generarea simultană a până la opt imagini; export la rezoluție 2K. Unde se vede îmbunătățirea: infografice, diagrame și limbaje GSMArena notează că Images 2.0 ar fi mai bun la generarea de infografice și diagrame, cu fidelitate semnificativ îmbunătățită și suport mai bun pentru o varietate mai mare de limbi. Totodată, modelul ar urma să respecte mai bine instrucțiunile din prompt și să păstreze detaliile cerute. Disponibilitate și diferențiere pe abonamente Images 2.0 este disponibil pentru toți utilizatorii ChatGPT, însă modul „Images with thinking” este rezervat abonamentelor Plus, Pro, Business și Enterprise. În practică, asta separă funcțiile avansate (cele care implică „gândire”/sinteză) într-o zonă plătită, relevantă mai ales pentru utilizare profesională. [...]