Alcuni analisti cyber hanno effettuato un esperimento, riuscendo ad hackerare Lilli, la piattaforma interna AI sviluppata da McKinsey & Company, la società di consulenza più prestigiosa al mondo.

La piattaforma, sviluppata in funzione dei suoi oltre 43mila dipendenti è un sistema appositamente progettato su alcuni pilastri. Chat, analisi di documenti, RAG su decenni di ricerca proprietaria, ricerca basata sull’AI di oltre 100mila documenti interni. Lanciata tre anni fa, oltre il 70% dei dipendenti di McKinsey l’ha adottata, arrivando la piattaforma ad elaborare oltre 500mila richieste al mese.

Per testare la sicurezza del sistema, gli analisti hanno impiegato un “agente offensivo autonomo“. E hanno rimarcato: “Nessuna credenziale. Nessuna conoscenza privilegiata. E nessun intervento umano. Solo un nome di dominio pubblico“. In due ore, l’agente ha avuto pieno accesso in lettura e scrittura all’intero database di produzione.

La misura del test di attacco

L’agente, ha spiegato il gruppo di analisti di CodeWall.ai, “ha mappato la superficie di attacco e ha trovato la documentazione API esposta pubblicamente“. C’erano oltre “200 endpoint, completamente documentati. La maggior parte richiedeva l’autenticazione. Ventidue no“.

Uno di questi endpoint senza protezione scriveva le query di ricerca degli utenti nel database. I valori erano parametrizzati in modo sicuro, ma le chiavi JSON, ovvero i nomi dei campi, erano concatenate direttamente in SQL.

Quando l’agente ha trovato le chiavi JSON riportate letteralmente nei messaggi di errore del database, “ha riconosciuto un’iniezione SQL che gli strumenti standard non avrebbero segnalato”. Infatti, hanno rimarcato gli analisti, “OWASPs ZAP non ha rilevato il problema“.

Da lì, “ha eseguito quindici iterazioni cieche, ciascuna delle quali rivelava un po’ di più sulla forma della query, fino a quando i dati di produzione in tempo reale hanno iniziato a tornare“.

Poi, si legge: “Nel momento in cui è apparso il primo identificativo reale di un dipendente, la catena di pensieri dell’agente è diventata evidente. Quando la portata totale è diventata chiara, sono apparsi decine di milioni di messaggi, decine di migliaia di utenti“.

CodeWall.ai Credits

La chiave dell’infrastruttura

L’analisi, oltre ai file, ha rivelato “l’intera infrastruttura che alimenta l’assistente AI“. In questa figuravano anche documenti indicizzati per sistemi RAG, configurazioni dei modelli, prompt di sistema e flussi di dati inviati a servizi esterni di AI.

L’accesso in scrittura rappresentava la minaccia più critica. “Modificando i prompt che controllano il comportamento dell’assistente, un attaccante avrebbe potuto alterare raccomandazioni strategiche“. Avrebbe anche potuto inserire “meccanismi di esfiltrazione di informazioni riservate o rimuovere i vincoli di sicurezza senza lasciare tracce evidenti nei sistemi tradizionali di monitoraggio“.

Come ha risposto McKinsey?

Dopo aver registrato i risultati, gli analisti hanno contattato la società di consulenza, illustrando i punti di criticità della sua piattaforma. La segnalazione ha consentito a McKinsey “di correggere gli endpoint vulnerabili e di limitare l’accesso alla documentazione pubblica“.

Il generale, il risultato dello studio è la conferma di “una crescente diffusione di strumenti autonomi basati su AI“. Strumenti, che stanno trasformando il panorama delle minacce informatiche, “rendendo necessario trattare prompt, pipeline di dati e configurazioni dei modelli come asset critici di sicurezza“.

