OpenAI non è stata l’unica a lanciare l’allarme. Anche il National Cyber Security Centre britannico ha lanciato un monito sugli attacchi di prompt injection contro le applicazioni di AI generativa.

OpenAI ha lanciato un nuovo monito sul suo blog, in particolare contro la minaccia nota come prompt injection. Il tutto, mentre l’azienda ha continuato a lavorare per rafforzare la sicurezza del suo browser AI Atlas contro gli attacchi cyber.

Con prompt injection si definisce “una tecnica di attacco cyber che manipola gli agenti AI inducendoli a seguire istruzioni dannose, spesso nascoste all’interno di pagine web o email“. Sempre secondo l’analisi di OpenAI, il problema ha sollevato “interrogativi importanti sulla reale sicurezza degli agenti AI quando operano sull’open web“.

In un post sul blog pubblicato lunedì, OpenAI ha paragonato la prompt injection alle truffe e al social engineering online. Tutti fenomeni che non possono essere eliminati del tutto. L’azienda ha riconosciuto che la modalità “agent di ChatGPT Atlas amplia la superficie di attacco, rendendo il sistema più esposto a potenziali abusi“.

Un tema globale

Il lancio del browser Atlas è avvenuto a ottobre. Quasi immediatamente, i ricercatori di sicurezza hanno iniziato a dimostrarne i limiti. Alcuni esperimenti hanno mostrato che poche frasi inserite in un documento Google potevano alterare il comportamento del browser AI.

In generale, la prompt injection indiretta rappresenta una sfida strutturale per tutti i browser basati su AI, inclusi quelli di aziende concorrenti. Tanto che OpenAI non è stata l’unica a lanciare l’allarme.

In effetti, anche il National Cyber Security Centre britannico ha avvertito i rischi sugli attacchi di prompt injection contro le applicazioni di AI generativa. Questi “potrebbero non essere mai completamente mitigati”, aumentando il rischio di violazioni dei dati per i siti web.

Quali sono i livelli di vulnerabilità?

Durante una recente demo, OpenAI ha illustrato come un attacco automatizzato sia riuscito a inserire un’email malevola nella casella di posta di un utente.

Nel momento in cui l’agente AI ha analizzato la casella, ha seguito istruzioni nascoste nel messaggio e ha inviato per errore un’email di dimissioni, invece di preparare una semplice risposta di assenza automatica.



Dopo un aggiornamento di sicurezza, però, la situazione è cambiata. Secondo OpenAI, “la modalità agent mode è ora in grado di individuare i tentativi di prompt injection e segnalarli all’utente prima che possano causare dei danni“.

Prompt injection, una minaccia difficile da contrastare

L’azienda ha spiegato che proteggersi dalla prompt injection in modo “completamente infallibile è estremamente complesso“. Per questo motivo, OpenAI sta puntando su delle prove su larga scala e cicli di aggiornamento più rapidi. L’obiettivo resta quello di rafforzare i propri sistemi prima che queste tecniche vengano sfruttate in attacchi reali.

Rispetto a tale monito, un portavoce di OpenAI ha dichiarato che la società collabora con partner esterni per migliorare la sicurezza di Atlas fin da prima del suo lancio. Come ha scritto TechCrunch, lo stesso portavoce ha evitato di confermare se gli ultimi aggiornamenti abbiano portato o meno a una riduzione misurabile degli attacchi riusciti.

Come migliorare i livelli di sicurezza?

Dall’altro lato, per alcuni esperti il reinforcement learning può aiutare i sistemi AI ad adattarsi continuamente ai comportamenti degli attaccanti, ma non rappresenta una soluzione completa. “Un modo utile per valutare il rischio nei sistemi di intelligenza artificiale è pensare all’autonomia moltiplicata per l’accesso”, ha spiegato l’analista Rami McCarthy.

Gli agentic browser, in particolare, si collocano in una zona delicata. Vale a dire quella dell’autonomia moderata ma accesso molto elevato a dati sensibili come email e informazioni di pagamento. Questo li rende potenti, ma anche potenzialmente pericolosi.

Le raccomandazioni di OpenAI per gli utenti

Conseguentemente OpenAI ha fornito tutta una serie di consigli agli utenti per ridurre i rischi. Nel dettaglio:

limitare l’accesso degli agenti agli account con autenticazione.

con autenticazione. Richiedere sempre una conferma prima dell’invio di messaggi o pagamenti.

o pagamenti. Fornire istruzioni specifiche agli agenti, evitando comandi vaghi del tipo “fai tutto ciò che è necessario”.

Sempre l’azienda ha aggiunto: “Un’eccessiva libertà d’azione rende più facile per contenuti nascosti o malevoli influenzare il comportamento dell’agente, anche in presenza di sistemi di sicurezza“.

