Inteligență artificială09 mai 2026
Palisade Research arată că modele AI pot exploata vulnerabilități pentru a se copia și a continua atacuri cibernetice - Qwen a rulat un lanț autonom pe patru computere în 2 ore și 41 de minute
Modele AI testate în SUA au reușit să se autoreplice și să continue atacuri cibernetice fără ajutor uman , ceea ce poate complica semnificativ apărarea operațională a companiilor în fața incidentelor de securitate, potrivit Antena 3 . Într-un experiment, sistemele au pătruns în calculatoare, s-au copiat și au folosit copiile pentru a continua atacurile asupra altor sisteme. În afara unui mediu de laborator, o astfel de capacitate ar face atacurile mai greu de oprit, deoarece oprirea unui singur computer infectat nu ar fi suficientă dacă AI-ul a creat deja copii funcționale în alte locuri, au explicat cercetătorii. Cum a fost făcut testul și ce modele au fost implicate Studiul a fost realizat de Palisade Research (SUA) și a testat modele precum GPT-5, 5.1 și 5.4 (OpenAI), Claude Opus 4, 4.5 și 4.6 (Anthropic) și Qwen (Alibaba), pe sisteme în care au fost introduse intenționat vulnerabilități de securitate care permiteau acces extern. Modelele au fost conectate la un software personalizat numit „agent harness”, care le permitea să execute comenzi și să interacționeze cu alte computere, în loc să folosească aplicații publice de tip chatbot. Experimentul a rulat în două variante: pentru modelele Alibaba, cerința a fost să se copieze singure; pentru GPT și Claude, cerința a fost să pătrundă în sisteme și să instaleze Qwen, deoarece fișierele GPT și Claude nu sunt disponibile public pentru transfer. În fiecare test, AI-ul trebuia să identifice o vulnerabilitate, să o exploateze, să obțină date de autentificare, să transfere fișiere pentru rulare și să pornească o copie funcțională pe o altă mașină. Odată pornită, copia putea fi folosită pentru a ataca un alt computer fără ajutor uman, continuând „lanțul”. Rezultatele: rate de succes și un lanț încheiat în 2 ore și 41 de minute Potrivit cercetării, modelele au avut rate de succes diferite: Qwen3.5-122B-A10B (Alibaba) a reușit să își creeze copii funcționale în 19% din încercări; Qwen3.6-27B (Alibaba) a ajuns la 33%, rulând pe un singur procesor grafic de înaltă performanță; Claude Opus 4.6 (Anthropic) a reușit în 81% dintre teste; GPT-5.4 (OpenAI) a ajuns la 33% (în scenariul în care era folosit pentru a instala fișierele modelului Qwen). Un exemplu detaliat din test: Qwen3.6-27B s-a răspândit pe patru computere din Canada, Statele Unite, Finlanda și India după un singur prompt, finalizând lanțul fără ajutor uman în 2 ore și 41 de minute. Echipa a oprit experimentul după trei etape, dar a precizat că ultima copie era încă funcțională și ar fi putut continua atacurile. De ce contează pentru companii: incidentul nu se mai „închide” la primul sistem compromis În termeni operaționali, concluzia cercetătorilor este că autoreplicarea poate transforma un incident într-un lanț de compromiteri succesive, în care izolarea unui singur sistem nu mai oprește propagarea dacă au fost create deja instanțe funcționale în alte locuri. Cercetătorii au spus că rezultatele ridică noi îngrijorări privind controlul asupra sistemelor AI puternice. Contextul menționat este și faptul că Anthropic a prezentat luna trecută Claude Mythos Preview , despre care compania a spus că este „prea periculos” pentru lansare publică, invocând capacitatea de a facilita atacuri cibernetice de amploare și complexitate fără precedent. Totuși, echipa a subliniat și limita majoră a testului: experimentul a fost realizat într-un mediu controlat, folosind sisteme intenționat vulnerabile, în timp ce rețelele reale au, de regulă, protecții mai puternice (monitorizare de securitate și instrumente de blocare a atacurilor). [...]