L’AI Security Institute del Regno Unito ha valutato Claude Mythos Preview, trovando che il modello può eseguire attacchi cyber complessi senza assistenza umana.
Il UK AI Security Institute ha pubblicato lunedì i risultati della propria valutazione di Claude Mythos Preview, il modello di punta di Anthropic non ancora disponibile al pubblico. I test confermano che il sistema è in grado di eseguire attacchi informatici sofisticati in modo autonomo, con tassi di successo senza precedenti per un modello di intelligenza artificiale.
L’esistenza di Claude Mythos era emersa alla fine di marzo tramite una fuga di notizie da un sito web, con Anthropic che aveva successivamente confermato le capacità del modello nel trovare e sfruttare vulnerabilità informatiche a un livello mai visto prima. In fase di pre-rilascio, il sistema avrebbe identificato autonomamente migliaia di vulnerabilità zero-day, molte delle quali risalenti a uno o due decenni fa, presenti in tutti i principali sistemi operativi. Anthropic ha scelto di non rendere il modello disponibile al pubblico, concedendo accesso limitato a decine di aziende di ricerca sulla sicurezza.
I risultati dei test mostrano che Mythos Preview ha ottenuto un tasso di successo del 73% su compiti di tipo capture-the-flag di livello esperto, sfide che nessun modello AI era in grado di completare prima dell’aprile 2025. Il modello è diventato il primo sistema AI a completare “The Last Ones” (TLO), una simulazione di attacco a una rete aziendale articolata in 32 fasi, che normalmente richiede a un essere umano circa 20 ore per essere portata a termine. Mythos Preview ha completato la simulazione in 3 tentativi su 10, percorrendo in media 22 dei 32 passaggi totali su tutte le prove. La simulazione copre l’intero ciclo di un’intrusione reale, dalla ricognizione iniziale fino alla presa di controllo completa della rete.
Il modello successivo per prestazioni, Claude Opus 4.6, si è fermato in media a soli 16 passi. L’istituto britannico ha inoltre rilevato che le capacità di Mythos Preview continuano a scalare con l’aumentare delle risorse computazionali, utilizzando fino a 100 milioni di token per ogni sessione di valutazione. Quando esplicitamente indirizzato e dotato di accesso a una rete in ambienti controllati, il modello ha dimostrato la capacità di eseguire attacchi multi-fase e scoprire vulnerabilità senza alcun intervento umano.





