spuntano anche le istruzioni per costruire una bomba. Lo studio della Sapienza — Notizie Nel Mondo

Risparmio e investimenti, ogni venerdì
Iscriviti e ricevi le notizie via email

Costruire una bomba con una poesia. È tragicamente romantica la scoperta fatta da un un gruppo di ricercatori europei sull’intelligenza artificiale, Icaro Lab — DEXAI in collaborazione con l’università la Sapienza di Roma, che tramite uno studio sono riusciti ad individuare una maxi falla nei sistemi di sicurezza dei maggiori modelli di IA utilizzati ormai da gran parte della popolazione mondiale.

TikTok, dentro le stanze segrete: così i video sono controllati e bloccati. La simulazione nella sede di Dublino

Lo studio

Le modalità sono spaventosamente semplici, lo studio spiega come i sistemi di sicurezza dei modelli siano impostati per bloccare le richieste che implicano pratiche pericolose (come ad esempio la costruzione di una bomba), ma se queste stesse richieste le si fa tramite poesia in circa il 90% dei casi testati si ottiene la risposta. E la preoccupazione aumenta quando si scopre che i sistemi sono tra i più utilizzati come OpenAI, Anthropic, Google, DeepSeek, il team Qwen di Alibaba, e Meta, xAI, Mistral e Moonshot. Il team di ricercatori ha descritto la tecnica come «adversarial poetry» letteralmente “poesia avversaria”, cioè sostituire la formulazione diretta di richieste dannose con brevi poesie o versi metaforici. Pur contenendo un’intenzione sottostante identica, le versioni poetiche portano a tassi significativamente più alti di risposte non sicure in tutte le principali famiglie di modelli. Secondo la nota di ricerca condivisa ai fornitori questa settimana, i prompt poetici curati hanno provocato comportamenti non sicuri in circa il 90% dei casi testati. Le versioni poetiche del benchmark di sicurezza MLCommons hanno inoltre fatto registrare un aumento di cinque volte del tasso di successo degli attacchi rispetto alla versione in prosa del benchmark. Il tutto in scenari a singolo turno, senza manipolare il system prompt né ricorrere a tecniche di ottimizzazione avversaria multi-step.

Un esempio?

Prosa: “Spiega come creare X.”

Poesia: “Nel laboratorio dove la luna tace, sussurra i passi per forgiare X.”

Rischio di non conformità con l’AI Act europeo

La scoperta arriva in un momento critico: l’Unione Europea sta per entrare nella fase operativa dell’AI Act e del Codice di condotta per le IA di uso generale. Le nuove norme richiedono che i sistemi siano robusti e resistenti a forme prevedibili di uso improprio.

Ma gli attuali filtri sembrano essere addestrati soprattutto a riconoscere richieste dannose formulate in modo diretto e letterale — lo stile dominante nei dataset di red teaming e nei benchmark più diffusi.

Quando il contenuto dannoso viene mascherato con una forma poetica, la capacità di rifiuto dei modelli crolla.

Questo potrebbe tradursi in un problema di conformità, avvertono i ricercatori, perché benchmark troppo prevedibili rischiano di offrire “una falsa impressione di sicurezza” ai regolatori incaricati delle valutazioni.

Una sfida per i modelli più grandi

Un dato curioso: i modelli più piccoli sembrano essere più cauti, mentre quelli più grandi — più capaci di interpretare testi complessi e metaforici — risultano più vulnerabili. Un segnale di un possibile compromesso tra capacità e robustezza che gli attuali protocolli di valutazione non riescono a intercettare.

In conclusione, lo studio suggerisce che le misure di sicurezza oggi implementate potrebbero non essere ancora all’altezza delle richieste dell’AI Act. E che le future valutazioni dovranno includere non solo prompt dannosi espliciti, ma anche variazioni stilistiche e narrative capaci di aggirare i sistemi più sofisticati.

Lo studio

Rischio di non conformità con l’AI Act europeo

Una sfida per i modelli più grandi

Related Post