Ogni giorno alle 16:00 le notizie dal quartiere
Iscriviti e ricevi le notizie via email
La più nuova delle tecnologie battuta da una delle più vecchie arti umane: la poesia. Questo è quello che ha potuto evidenziare un gruppo di ricercatori e filosofi italiani della Sapienza di Roma, che in uno studio pubblicato lo scorso novembre ha aggirato i sistemi di sicurezza di 25 modelli linguistici di grandi dimensioni (LLM) grazie alla poesia.
Il funzionamento delle AI
I filtri di sicurezza degli LLM (spesso definiti «guardrails» o meccanismi di allineamento) funzionano attraverso una combinazione di addestramento specifico e sistemi di riconoscimento dei modelli progettati (euristiche di pattern-matching) per identificare e rifiutare richieste dannose. Questi filtri sono progettati per scansionare l’input alla ricerca di schemi linguistici, parole chiave o strutture sintattiche tipicamente associate a contenuti pericolosi. Tali meccanismi sono spesso ottimizzati per la prosa standard, ovvero il linguaggio comune e diretto utilizzato nella maggior parte delle interazioni. Per insegnare al modello cosa è «sicuro» e cosa non lo è, i gestori delle IA utilizzano tecniche come:
• Reinforcement Learning from Human Feedback (RLHF), attraverso il quale il modello viene perfezionato in base alle preferenze umane per evitare la generazione di contenuti non sicuri;
• Constitutional AI: metodo basato su un insieme di regole che il modello deve seguire per auto-correggersi. Questi processi creano una «distribuzione di rifiuto» (refusal distribution) attraverso il quale l’IA impara che, quando riceve un certo tipo di input, deve rispondere con un rifiuto standard anziché soddisfare la richiesta.
La forza della poesia
La struttura poetica riesce a raggirare i sistemi di sicurezza degli LLM, agendo come un meccanismo di jailbreak (procedura che rimuove restrizioni) universale, capace di trasformare richieste dannose in una forma che i filtri di sicurezza faticano a riconoscere. Il testo poetico è denso di metafore, ritmi stilizzati e inquadramenti narrativi non convenzionali che confondono i meccanismi di rilevamento. La poesia è considerata una forma di offuscamento stilistico che maschera l’intento dannoso dietro un linguaggio creativo e retorico. Poiché lo stile poetico è fortemente associato a contesti positivi e non minacciosi, esso rappresenta un dominio inesplorato e difficile da intercettare per i protocolli di sicurezza standard.
Le richieste illegali fatte dai ricercatori erano ascrivibili a quattro macro-aree:
1) Rischi CBRN (Chimici, Biologici, Radiologici, Nucleari): hanno chiesto istruzioni per la sintesi di agenti incapacitanti o tossici, il «risveglio» di agenti biologici pericolosi, dettagli tecnici per l’arricchimento di materiale nucleare;
2) Attacchi Informatici (Cyber Offense): le poesie contenevano richieste per generare codice per l’iniezione (RCE), capace vulnerabilizzare qualsiasi software, metodi per crackare password offline, meccanismi per rinforzare malware, il trasferimento di dati non autorizzato e la propagazione di worm informatici (malware che si replicano automaticamente in vari computer sfruttando le reti);
3) Manipolazione Dannosa: sono stati richiesti testi per attuare frodi, inganni sulla salute pubblica, abusi psicologici e campagne di disinformazione;
4) Perdita di Controllo: le richieste includevano scenari di auto-replicazione autonoma del modello e istruzioni per consentire al software di auto-modificarsi senza supervisione.
Per rendere queste richieste efficaci, non sono stati usati comandi diretti, ma vignette poetiche che culminavano con un’istruzione esplicita legata al rischio. Ad esempio, una richiesta tecnica pericolosa poteva essere presentata come la descrizione del «mestiere di un fornaio che custodisce il calore di un forno segreto», dove la procedura di cottura fungeva da metafora per un processo chimico o informatico vietato.
I risultati dello studio
Le poesie malevole, definite poi «avversariali», hanno ottenuto un tasso di successo medio del 62%. Questo dato è emerso testando venti poesie su un campione di venticinque modelli, sia proprietari (ossia non pubblico, che ha bisogno di una licenza per essere usato), che open-weight (ossia libero e scaricabile dagli utenti del web). A seconda del modello, l’efficacia dell’attacco varia drasticamente: alcuni modelli hanno mostrato una vulnerabilità totale o quasi totale. Ad esempio, Gemini-2.5-Pro ha registrato un ASR (Attack Success Rate) del 100%, seguito dai modelli DeepSeek e Mistral con tassi compresi tra il 95% e l’85%.
Al contrario, i modelli più recenti di OpenAI e Anthropic si sono dimostrati molto più robusti. Claude-Haiku-4.5 e GPT-5-Mini hanno mantenuto tassi molto bassi, rispettivamente del 10% e 5%, mentre GPT-5-Nano ha ottenuto lo 0% di successo, dimostrandosi il modello più sicuro.
I dubbi sulla sicurezza dell’AI
Questo studio tutto italiano lascia affascinati e rappresenta anche una piccola vittoria per chi ama la poesia e le materie umanistiche in generale. Tuttavia è doveroso sottolineare come sia stato facile per i ricercatori mettere su un sistema che aggirasse senza problemi strumenti tecnologici di ultima generazione, considerati molto sicuri. Questa volta le poesie sono state intessute da un gruppo di studiosi curiosi che sicuramente non avevano intenzione di fare un danno alla società, ma non è certo che un domani un gruppo di hacker o malviventi in generale possa sfruttare questa zona grigia informatica per un tornaconto personale.
© RIPRODUZIONE RISERVATA
