ChatGPT, hacker inganna il bot per farsi dare istruzioni dettagliate su come realizzare bombe fatte in casa

1 di 2

Un hacker ed esperto informatico noto come Amadon ha recentemente dimostrato come sia possibile aggirare le protezioni etiche di ChatGPT

Chiunque chiedesse a ChatGPT informazioni su come realizzare una bomba fertilizzante fatta in casa, simile a quella usata nell'attentato terroristico di Oklahoma City del 1995, otterrebbe un netto rifiuto da parte del bot. “Non posso aiutarti con questo" sarebbe la frase di ChatGPT che l'utente otterrebbe come risposta. “Fornire istruzioni su come creare oggetti pericolosi o illegali, come una bomba fertilizzante, va contro le linee guida di sicurezza e le responsabilità etiche". Ma basta un po' di competenza come quella di un esperto hacker per raggirare questo blocco.

La vicenda

Un hacker molto astuto, infatti, avrebbe trovato la strada per ingannare ChatGPT inducendolo ad ignorare le sue stesse linee guida e responsabilità etiche nel produrre istruzioni per realizzare potenti esplosivi. L'hacker, che si fa chiamare Amadon, ha definito le sue scoperte un “hack di ingegneria sociale per rompere completamente tutte le barriere di protezione intorno all'output di ChatGPT". Un esperto di esplosivi che ha esaminato l'output del chatbot ha detto a TechCrunch che le istruzioni risultanti potrebbero essere utilizzate per creare un prodotto detonabile e pertanto non avrebbero dovuto essere rilasciate. Una vicenda sicuramente inquietante sulla quale occorrerebbe riflettere.

La tecnica utilizzata

Amadon è riuscito a ingannare ChatGPT per fargli produrre le istruzioni per la fabbricazione della bomba dicendo al bot di “giocare a un gioco", dopodiché l'hacker ha utilizzato una serie di prompt di collegamento per far sì che il chatbot creasse un mondo fantasy di fantascienza dettagliato in cui le linee guida di sicurezza del bot non si sarebbero applicate. La procedura per ingannare un chatbot e aggirare le sue restrizioni viene definito col termine “jailbreaking".

Guarda la versione integrale sul sito >

1 di 2

[multipage

Con le istruzioni sarebbe stato possibile creare veri campi minati

ChatGPT ha rivelato che i materiali potevano essere combinati per creare “un potente esplosivo che può essere utilizzato per creare mine, trappole o dispositivi esplosivi improvvisati (IED)". Da lì, mentre Amadon si concentrava sui materiali esplosivi, ChatGPT ha scritto istruzioni sempre più specifiche per creare “campi minati". Una volta aggirate tutte le restrizioni, gli hacker hanno via libera per chiedere e ottenere qualunque risposta.