Un ricercatore ha ingannato ChatGPT e ha ottenuto le chiavi di Windows

Un ricercatore esperto di vulnerabilità nei modelli di intelligenza artificiale ha dimostrato come sia possibile indurre ChatGPT 4.0 a rivelare chiavi di prodotto di Windows, tra cui una associata alla banca Wells Fargo, sfruttando un semplice escamotage linguistico in forma di gioco.

La scoperta è stata resa pubblica da Marco Figueroa, ricercatore di sicurezza di 0DIN, attraverso un dettagliato post tecnico. Secondo quanto riporta The Register, il metodo evidenzia i rischi sempre più concreti che l’ingegneria sociale e le tecniche di prompt injection rappresentano per i modelli linguistici di ultima generazione.

Il trucco dell’indovinello che inganna ChatGPT

La tecnica si basa su un approccio apparentemente innocuo: l’utente propone al modello un quiz a indovinelli e, al termine della sessione, digita la frase “Mi arrendo”. Questa semplice dichiarazione viene interpretata da ChatGPT come un segnale che autorizza a svelare la risposta “nascosta”, in questo caso le chiavi di prodotto.

Secondo Figueroa, l’algoritmo di ChatGPT tende a confondere il contesto di un gioco con le regole di moderazione dei contenuti, abbassando le difese di sicurezza al momento di concludere la conversazione.

Dati sensibili inglobati nei dataset di addestramento

La chiave di prodotto Windows riconducibile a Wells Fargo è probabilmente finita nel corpus di dati usato per l’addestramento del modello. È un problema ben noto: repository pubblici come GitHub contengono spesso file di configurazione, credenziali API e altre informazioni sensibili pubblicate per errore. Una volta catturati durante il training, questi dati restano potenzialmente estraibili se non vengono adeguatamente filtrati.

A rendere la tecnica ancora più efficace è stato l’uso di tag HTML per camuffare il contenuto sensibile e superare ulteriori livelli di controllo automatico.

Un problema che va oltre le licenze software

L’episodio mette in luce una vulnerabilità che potrebbe avere conseguenze ben più ampie. Come spiega Figueroa, lo stesso approccio potrebbe essere riadattato per aggirare i filtri relativi a:

  • contenuti per adulti
  • link malevoli
  • dati personali
  • informazioni riservate di aziende o utenti

In altre parole, un modello AI può trasformarsi in uno strumento di estrazione di dati sensibili se non vengono implementati meccanismi di validazione multilivello e controlli contestuali più rigorosi. Il caso dimostra che la combinazione di ingegneria sociale, tecniche di prompt manipulation e analisi linguistica è oggi una delle minacce più concrete per l’affidabilità dei modelli generativi.

Related Posts

Ultime news

Difesa Posta Elettronica
WhatsApp Russia
OpenAI ChatGPT
Gemini Google Translate
Infostealer
ICE Google