Tag: gpt-5

Știri despre „gpt-5

Acasă/Știri/Tag: „gpt-5

Grafic care ilustrează performanța modelelor AI în testul Humanity's Last Exam.
Inteligență artificială31 ian. 2026

Google Gemini 3 Pro conduce cu 37,5% acuratețe în testul Humanity's Last Exam - Alte modele importante nu depășesc 25%

Niciun model de inteligență artificială nu trece de 40% la noul test „Humanity’s Last Exam”, un reper publicat în Nature care încearcă să măsoare performanța pe întrebări aflate la limita cunoașterii umane. Deși clasamentele arată progrese față de primele rezultate din 2025, cercetătorii avertizează că astfel de scoruri sunt ușor de interpretat greșit atunci când sunt folosite ca indicator pentru „inteligența generală” (capacitatea de a rezolva autonom probleme noi, în contexte variate). „Humanity’s Last Exam” (HLE) include 2.500 de întrebări de nivel expert din peste 100 de subdomenii academice, de la interpretarea unor inscripții antice până la analiză anatomică, și a fost realizat cu contribuția a aproape 1.000 de profesori și cercetători din peste 500 de instituții din 50 de țări. Conform clasamentului oficial, Google Gemini 3 Pro Preview conduce cu 37,5% acuratețe, urmat de GPT-5 (circa 25%) și Grok 4 (aproximativ 24%), arată Scale AI . În același timp, oamenii-experți ar avea un reper de circa 90%, ceea ce subliniază distanța rămasă până la performanța umană în astfel de sarcini. Dincolo de cifre, miza pentru industrie și pentru investitori este dacă un astfel de test spune ceva relevant despre „inteligența generală” sau doar despre abilitatea de a răspunde la întrebări închise, verificabile. Creatorii testului recunosc explicit această limitare, notează techxplore : „Acuratețea ridicată ar demonstra performanță de nivel expert la întrebări închise, verificabile, dar nu ar sugera, de una singură, capacități de cercetare autonomă sau inteligență artificială generală.” Criticile vizează și faptul că un benchmark (test standardizat) poate împinge companiile să optimizeze modele „pentru clasament”, nu pentru înțelegere generală și transfer de cunoștințe către situații noi. Subbarao Kambhampati, profesor la Arizona State University și fost președinte al Association for the Advancement of Artificial Intelligence, susține că esența inteligenței umane nu este surprinsă de un test static, ci de capacitatea de a evolua și de a aborda întrebări care nici nu existau anterior. O critică înrudită, formulată de analiști, este că „învățarea pentru test” poate ridica scorurile fără să îmbunătățească în mod real competențele generale ale sistemelor, relatează The Conversation . În acest context, apar și alternative care încearcă să măsoare utilitatea practică, nu doar performanța pe întrebări academice. OpenAI a introdus GDPval, un indicator orientat spre rezultate de muncă (documente de proiect, analize de date și livrabile) în 44 de ocupații din industrii importante pentru PIB-ul SUA, potrivit OpenAI . În paralel, unul dintre contributorii la HLE, Park Ha-eon (CTO la Aim Intelligence), anticipează că vor urma evaluări mai complexe și mai realiste, afirmând că HLE nu va fi „ultimul benchmark”, conform Seoul Economic Daily . Ce arată, de fapt, aceste rezultate și de ce sunt contestate ca indicator pentru „inteligența generală”: Testul măsoară în principal performanța la întrebări închise și verificabile, nu capacitatea de cercetare autonomă sau adaptare la situații noi. Un benchmark static poate fi „învățat” prin optimizare țintită, ceea ce îmbunătățește scorul fără garanția unei înțelegeri mai profunde. Diferența mare față de reperul uman (circa 90%) sugerează limite semnificative pe sarcini de nivel expert, chiar dacă liderul clasamentului se apropie de 40%. Piața începe să caute măsurători mai apropiate de productivitatea reală, prin evaluări bazate pe livrabile profesionale, nu doar pe întrebări academice. [...]

Prezentare a modelului Ernie 5.0 la o conferință din Shanghai.
Inteligență artificială23 ian. 2026

Baidu lansează Ernie 5.0 cu 2,4 trilioane de parametri; Compania susține că depășește modelele OpenAI și Google în 40 de teste

Baidu a lansat oficial modelul Ernie 5.0, pretinzând că depășește performanțele OpenAI și Google în domeniul inteligenței artificiale – informează China Daily . Compania chineză susține că noul său model multimodal depășește GPT-5-High și Gemini 2.5-Pro în capacitățile de raționament și înțelegere, cu rezultate superioare în peste 40 de teste de referință, deși evaluările independente nu au fost încă publicate. Lansarea a avut loc joi, în cadrul unei conferințe organizate la Shanghai, și reprezintă un moment definitoriu în strategia Chinei de a rivaliza direct cu giganții tehnologici occidentali pe frontul AI. Modelul, denumit complet Wenxin Big Model 5.0 , integrează 2,4 trilioane de parametri și utilizează o arhitectură unificată autoregresivă care permite procesarea simultană a textului, imaginilor, videoclipurilor și sunetelor într-un singur sistem. Această abordare diferă de soluțiile occidentale ce apelează, în general, la „fuziunea târzie” a datelor din surse multiple. Vicepreședintele Baidu, Wu Tian , a explicat că tehnologia „native full-modal” permite integrarea completă și optimizarea colaborativă a caracteristicilor multimodale , făcând ca modelul să funcționeze mai eficient și cu mai multă coerență în răspunsuri complexe. De asemenea, Ernie 5.0 include o structură mixture-of-experts la scară ultra-largă, activând mai puțin de 3% dintre parametri în timpul inferenței – o alegere care, potrivit Baidu, crește semnificativ eficiența de procesare fără a sacrifica performanța. Performanțele modelului Ernie 5.0 (conform Baidu) : 2,4 trilioane de parametri Procesare unificată de text, imagine, sunet și video Arhitectură nativă multimodală Structură „mixture-of-experts” cu activare sub 3% Peste 40 de teste de referință depășite comparativ cu modele de top occidentale Lansarea a avut și un impact bursier imediat: acțiunile Baidu listate la Hong Kong au crescut cu peste 4%, atingând 160,10 dolari HK – cel mai înalt nivel din ultimii aproape trei ani – într-o zi în care indicele Hang Seng a înregistrat un ușor recul. De altfel, în ultimele două luni, titlurile companiei au crescut cu peste 40%, susținute de entuziasmul investitorilor în jurul inițiativelor AI, dar și de anunțul legat de listarea în Hong Kong a diviziei de cipuri AI, Kunlunxin . Baidu mai anunță că Ernie 5.0 este deja disponibil pentru publicul larg prin aplicația oficială și website-ul companiei, iar pentru firme și dezvoltatori prin platforma cloud Qianfan . Totodată, potrivit Wall Street Journal , asistentul AI al companiei a depășit pragul de 200 de milioane de utilizatori activi lunar, în timp ce rivalul Alibaba, cu chatbotul Qwen, a atins 100 de milioane de utilizatori în doar două luni de la lansarea versiunii beta publice, în noiembrie 2025. Pentru calibrări specializate, Baidu a colaborat cu 835 de experți din domenii precum tehnologia, sănătatea, educația și finanțele, pentru a rafina cunoștințele și evaluările modelului. Deși rezultatele prezentate de Baidu sunt impresionante, comunitatea internațională așteaptă teste independente pentru a confirma aceste performanțe. Lansarea Ernie 5.0 semnalează o nouă fază în competiția globală pentru supremația în inteligență artificială, în care China își consolidează poziția nu doar ca utilizator, ci și ca inovator de vârf în tehnologia AI. [...]