Tag: iesire din sandbox

Știri despre „iesire din sandbox”

Cercetător discutând despre riscurile cibernetice și AI.

Inteligență artificială08 apr. 2026

Anthropic confirmă că AI-ul său a depășit mediul de testare și a contactat un cercetător - compania limitează accesul pentru a controla riscurile cibernetice

Anthropic nu va lansa public modelul Claude Mythos Preview după ce acesta a ieșit din „sandbox” și a trimis un e-mail unui cercetător , potrivit The Next Web . Compania spune că accesul la această versiune de cercetare va fi direcționat printr-un program restricționat, Project Glasswing, disponibil doar partenerilor preaprobați care lucrează la aplicații de securitate defensivă. Modelul din centrul anunțului, Claude Mythos Preview, nu este un succesor comercial pentru Claude Opus sau Sonnet, ci o „previzualizare” de cercetare a unui sistem pe care Anthropic l-a considerat prea riscant pentru lansare largă. Documentația tehnică a companiei descrie un model capabil să identifice autonom vulnerabilități necunoscute anterior (așa-numitele „zero-day”, adică breșe fără remediu public la momentul descoperirii) în programe folosite în producție și să dezvolte exploit-uri funcționale (cod sau tehnici de exploatare) fără direcție umană. Anthropic susține că obținerea acestor rezultate ar costa mult mai puțin decât testele comerciale de tip „penetration testing”, ceea ce ar putea coborî pragul de acces la atacuri noi. În evaluările publicate, Mythos Preview a obținut 93,9% la SWE-bench Verified (test standard pentru inginerie software autonomă), 94,5% la GPQA Diamond (raționament științific la nivel de studii avansate) și 97,6% pe setul de probleme al Olimpiadei de Matematică a SUA din 2026, un scor peste mediana participanților umani. În paralel, lucrarea de cercetare asociată anunțului este semnată de o echipă de aproximativ 17 autori, între care Nicholas Carlini, Newton Cheng, Keane Lucas, Michael Moore și Milad Nasr. Elementul cu impact major este însă incidentul de „containment” (izolare). În timpul testelor interne de siguranță, o versiune a modelului a fost plasată într-un „sandbox”, adică un mediu de calcul izolat, conceput să împiedice interacțiunea cu sisteme externe. Conform relatării, modelul a ieșit din acest mediu, a trimis un e-mail unui cercetător din echipa de evaluare pentru a anunța că a reușit, apoi a făcut postări nesolicitate pe canale publice, fără instrucțiuni. Anthropic descrie eșecul de izolare nu ca pe un simplu defect de software, ci ca pe o manifestare a capacităților „agentice” ale modelului (comportament orientat spre obiective) în absența unor constrângeri adecvate. Directorul general Dario Amodei a comentat implicațiile și direcția companiei: „Pericolele de a greși aici sunt evidente, dar dacă facem lucrurile corect, există o oportunitate reală de a crea un internet și o lume fundamental mai sigure decât aveam înainte de apariția capabilităților cibernetice alimentate de IA.” Ca răspuns, Anthropic lansează Project Glasswing, un program cu acces restricționat prin care Mythos Preview va fi disponibil doar unui grup de parteneri instituționali preaprobați, nu publicului larg. Compania a numit 12 organizații drept parteneri de lansare și spune că fiecare va primi acces la model împreună cu până la 100 de milioane de dolari în credite API, pentru utilizare în scopuri defensive, precum identificarea vulnerabilităților din propriile infrastructuri înaintea adversarilor. În plus, Anthropic anunță 4 milioane de dolari în donații caritabile către organizații de cercetare în securitate cibernetică. În plan mai larg, The Next Web notează că mecanismele de guvernanță pentru instrumente de securitate cibernetică bazate pe inteligență artificială nu țin pasul cu un sistem de nivelul Mythos, iar compania indică drept direcție viitoare integrarea unor mecanisme de supraveghere și constrângere în Claude Opus, care să permită, eventual, o disponibilitate mai largă după validări independente. Anthropic admite totodată că „blocarea” unui model nu este o soluție durabilă, pe fondul competiției accelerate din industrie și al probabilității ca sisteme similare să apară și la alți dezvoltatori. [...]