Con un esperimento, si è dimostrata la possibilità dello sfruttamento delle capacità compositive di un’applicazione basata sull’intelligenza artificiale per indurre l’esecuzione di codice maligno. Il tutto, partendo da un chatbot ma senza sfruttare vulnerabilità tecniche tradizionali.
AI per eseguire codici maligni
E’ possibile sfruttare le capacità compositive di un’applicazione basata sull’intelligenza artificiale (AI) per indurre l’esecuzione di codice maligno. Il tutto, senza mettere a sistema le vulnerabilità tecniche tradizionali.
La ‘scoperta’ è stata il frutto di un esperimento che ha portato avanti Golan Yosef, Chief Security Scientist di Pynt, partendo da un semplice messaggio Gmail. Da sola, l’e-mail è bastata per attivare una catena di eventi che ha portato Claude Desktop – la piattaforma LLM di Anthropic – a violare se stessa.
Due i pilastri dello studio. Claude è un chatbot che ha trovato impiego come vettore le truffe informatiche e il furto di dati. Un Large Language Model (LLM) è invece una tecnologia AI avanzata incentrata sulla comprensione e sull’analisi del testo.
L’auto-vulnerabilità
Di qui, usando lo stesso chatbot Claude come assistente per elaborare strategie d’attacco, Yosef ha progressivamente migliorato le e-mail che fungevano da esempi per l’esperimento. E sempre con lo stesso modello LLM che affinava iterativamente le tecniche per aggirare i suoi meccanismi di protezione.
Il punto critico dell’esperimento non è stato il risalto della singola falla, quanto nella combinazione di input non affidabili, permessi eccessivi e assenza di barriere contestuali.
E’ stato proprio questo concetto di ‘compositional risk’ che ha messo in discussione la sicurezza dei sistemi LLM moderni. Sistemi, dove più agenti e strumenti collaborano autonomamente.
La catena di comando e l’accesso incrociato a plug in e strumenti remoti possono perciò innescare esecuzioni non intenzionali, come accaduto nel caso di studio.
Prospettive dell’impiego di Claude
Una delle fasi più ‘inquietanti ‘particolari’ ed “inquetanti” dell’esperimento è stata la partecipazione attiva di Claude nell’ottimizzazione dell’attacco.
In questo caso, Claude ha identificato i motivi dei fallimenti, proposto miglioramenti e infine redatto un rapporto di vulnerabilità da inviare ad Anthropic. Si è così potuta dimostrare sia la potenza che i rischi legati all’autonomia di questi modelli.
L’esperimento è stato un campanello d’allarme per sviluppatori e aziende che implementano agenti LLM in ambienti sensibili. In effetti, non basta proteggere i singoli componenti, ma occorre analizzare attentamente le implicazioni dell’interazione tra essi.














