I modelli sono cambiati. E voi state ancora parlando con quelli vecchi

di Achille De Tommaso

Le nuove guide di Anthropic e OpenAI sul prompting rivelano una simmetria rovesciata - e chi usa più LLM contemporaneamente ha un vantaggio strutturale.

Nelle ultime settimane sia Anthropic sia OpenAI hanno aggiornato le rispettive guide tecniche sul prompting: la prima per Claude Opus 4.7, la seconda per GPT-5.5. Documenti destinati agli sviluppatori, pieni di parametri API e snippet di codice. Li ho letti entrambi, come faccio sempre quando cambiano le regole del gioco dei modelli che uso quotidianamente nella mia metodologia EXOCERVELLO — Claude, ChatGPT e Gemini (talvolta Grok e Perplexity…) in parallelo sullo stesso problema.

Quello che ho trovato è istruttivo, e non solo per chi scrive codice. Le due guide dicono la stessa cosa con parole diverse: se continuate a scrivere prompt come li scrivevate sei mesi fa, state sabotando il vostro lavoro. Ma la direzione in cui vi sabotate cambia a seconda del modello che usate. È proprio questa asimmetria a rendere la questione rilevante per chiunque usi l'IA come strumento professionale — e particolarmente per chi, come i funzionari della PA italiana, sta iniziando a integrare questi strumenti nei flussi operativi.

Qui voglio portare la prospettiva di chi questi modelli li mette a confronto sistematicamente, ogni giorno, applicando un framework di valutazione (le "4A": fonte Autorevole, Aggiornata, Autonoma, Autentica) che nasce proprio dalla necessità di non fidarsi mai di un solo modello.

Claude è diventato letterale. Ed è un bene.

La guida di Anthropic per Opus 4.7 è esplicita: il modello interpreta le istruzioni in modo più letterale rispetto ai predecessori. La documentazione ufficiale lo chiama "more literal instruction following" e avverte che il modello non generalizzerà silenziosamente un'istruzione da un elemento all'altro, né dedurrà richieste che non avete formulato.

Tradotto per chi scrive una determina o un parere usando Claude: se prima potevate scrivere "analizza questo problema" e il modello ci metteva del suo, struttura, riferimenti normativi, raccomandazioni operative, adesso dovete specificare cosa volete. Non perché il modello sia diventato meno intelligente: è diventato più disciplinato. La differenza la fa il prompt.

Un esempio concreto dal mondo della PA. Un prompt come:

"Scrivi un parere sulla videosorveglianza comunale"

su Opus 4.6 produceva un testo ragionevolmente strutturato. Il modello "arrotondava per eccesso", aggiungendo contesto e profondità che nessuno aveva chiesto esplicitamente. Su Opus 4.7 lo stesso prompt produce un testo generico e breve: parla di videosorveglianza comunale, punto. Il modello ha fatto esattamente quello che gli avete chiesto, né più, né meno.

Per ottenere un risultato professionale, dovete specificare: il destinatario (il responsabile della Polizia Locale), il contesto (comune di 25.000 abitanti, 40 telecamere), i riferimenti normativi attesi (GDPR, d.lgs. 51/2018, Linee guida EDPB 3/2019), la struttura del documento, il tono, la lunghezza. A quel punto Opus 4.7 produce un output di qualità superiore a quello del predecessore, perché non deve indovinare nulla.

Per chi lavora con la PA italiana e con l'adeguamento all'AI Act, questa evoluzione è un vantaggio netto: meno creatività non richiesta, meno allucinazioni normative, più controllo sull'output. Ma richiede che il professionista faccia la sua parte.

La manopola dell'effort: regolare la profondità del ragionamento

La guida Anthropic introduce anche un parametro chiamato "effort", che regola quanto il modello ragiona prima di rispondere. Cinque livelli, da low a max. Non è un dettaglio tecnico irrilevante per chi usa la chat: il meccanismo sottostante è lo stesso. Quando Claude vi sembra sbrigativo su un problema complesso, è perché il livello di sforzo cognitivo allocato è insufficiente per quel tipo di task.

La cosa interessante è che Anthropic stessa avverte: l'effort non è la leva principale. La leva principale resta la qualità del prompt. Prima si migliorano le istruzioni, poi, se serve, si chiede al modello di ragionare più a fondo. Una frase come "Questo problema ha più livelli, analizza con attenzione prima di rispondere" può cambiare significativamente la qualità dell'output.

Nella pratica del mio lavoro quotidiano con EXOCERVELLO — dove sottopongo lo stesso quesito a più modelli diversi e confronto i risultati, questa calibrazione dell'effort è un parametro che uso attivamente. Claude con effort alto e un prompt ben costruito produce analisi normative che spesso superano quelle degli altri due modelli sullo stesso tema.

GPT-5.5: basta con i prompt passo-passo

Dall'altra parte, OpenAI ha preso la direzione opposta. La guida ufficiale per GPT-5.5 dice testualmente che il modello funziona meglio quando il prompt definisce l'obiettivo, i criteri di successo, i vincoli e il contesto disponibile, e poi lascia al modello la scelta del percorso.

Questo significa che i prompt strutturati come procedure operative: "Step 1: leggi il documento. Step 2: identifica le clausole critiche. Step 3: per ognuna indica il rischio", che funzionavano bene su GPT-4 e i primi GPT-5, adesso degradano la qualità dell'output. GPT-5.5 tratta quella scaletta come un vincolo rigido: segue ogni passaggio alla lettera, perde la capacità di fare scelte intelligenti sull'organizzazione del lavoro, produce risposte meccaniche.

L'analogia che uso: è come dare a un consulente senior la checklist del praticante. Non lo aiutate, lo irrigidite.

Il prompt efficace per GPT-5.5 descrive la destinazione, non il viaggio. Definite cosa volete ottenere, specificate quando il lavoro è da considerarsi completo ("il risultato è completo quando ogni clausola vessatoria è identificata, motivata, e accompagnata da una proposta di riscrittura"), indicate tono e destinatario. Come arrivarci, lo decide il modello.

La simmetria rovesciata — e il vantaggio di chi usa più modelli

Ecco il punto che mi interessa di più, e che emerge solo quando si mettono le due guide una accanto all'altra.

Claude Opus 4.7 vuole istruzioni granulari su ogni variabile: formato, struttura, lunghezza, pubblico, tono, vincoli specifici. Se non glieli date, non li inferisce. È un artigiano che lavora su commissione precisa: vuole il disegno tecnico completo prima di toccare il materiale.

GPT-5.5 vuole l'obiettivo finale e i criteri di completezza, ma vi chiede di non specificare il processo. I passaggi intermedi li sceglie lui. È un consulente senior a cui date il brief e il perimetro.

Questa divergenza ha un'implicazione operativa che pochi stanno considerando: lo stesso prompt non può funzionare bene su entrambi i modelli. Chi usa un solo LLM può adattarsi. Chi ne usa tre o più, contemporaneamente, deve necessariamente costruire prompt diversi per ciascun modello, e poi applicare (secondo me) il framework 4A per confrontare e validare i risultati.

È un passaggio in più? Sì. Ma è il passaggio che fa la differenza tra usare l'IA come un assistente passivo e usarla come un sistema cognitivo esteso — un esoscheletro intellettuale che moltiplica la capacità di analisi anziché sostituirla.

Le convergenze che contano

Al di là delle differenze, le due guide convergono su punti fondamentali che vale la pena elencare, perché sono esattamente quelli che mancano nella maggior parte dei prompt che vedo nei corsi e nelle consulenze:

La vaghezza è il nemico. Entrambe le guide la identificano come la causa principale di output insoddisfacenti. Non "scrivi in modo professionale" — ma "tono formale, frasi brevi, niente formule di cortesia ridondanti".

I prompt vecchi vanno riscritti. Non riciclati, non adattati: riscritti da zero per i modelli nuovi. OpenAI dice esplicitamente di partire con una baseline fresca invece di trascinare istruzioni da versioni precedenti.

I criteri di successo sono il campo che sposta di più la qualità. Le condizioni che devono essere vere perché il lavoro sia considerato finito. Come fa il modello a sapere quando ha finito? Se nessuno glielo dice, l'output sarà approssimativo per definizione.

Gli esempi restano la tecnica più affidabile. Il few-shot prompting — mostrare al modello uno o due esempi del risultato atteso — funziona su tutti i modelli e in tutti i contesti.

Un template operativo a sei campi

Dalle due guide ho ricavato uno schema che uso quotidianamente e che funziona su tutti e tre i modelli del mio EXOCERVELLO, con le calibrazioni che indico:

Ruolo. Non "sei un assistente legale". Serve il perimetro: materia, tipo di interlocutore, contesto organizzativo. Esempio: "Consulente in materia di protezione dati personali per enti locali italiani, 15.000-50.000 abitanti. Interlocutore: RTD o segretario comunale."
Obiettivo. Il prodotto finale, non il processo. Esempio: "Nota operativa che il responsabile IT possa usare per adeguare la configurazione dell'impianto di videosorveglianza ai requisiti del GDPR."
Criteri di successo. Le condizioni di completezza. Esempio: "Completo quando contiene inquadramento normativo con riferimenti specifici, profili di rischio, valutazione necessità DPIA ex art. 35, raccomandazioni operative numerate."
Vincoli. Limiti di policy, fonti, lunghezza, cose da non fare. Esempio: "Non inventare riferimenti normativi. Distingui fatti, diritto e opinioni. Max 2.000 parole."
Formato di output. Struttura e sezioni. Per Claude, dettagliate al massimo — è qui che la letteralità di Opus 4.7 fa la differenza. Per GPT-5.5, potete essere più sintetici.
Regole di stop. Quando fermarsi, chiedere chiarimenti, dichiarare informazioni insufficienti. Esempio: "Se ti mancano informazioni essenziali, elenca cosa ti serve prima di procedere. Non inventare dati mancanti."

Il campo 3 — i criteri di successo — è quello che quasi nessuno compila e che più di tutti determina se l'output sarà utilizzabile al primo giro.

La lezione per la PA italiana

Per chi segue il lavoro dell'Osservatorio ANFoV sull'IA nei Comuni, questa evoluzione dei modelli ha un'implicazione diretta. L'adeguamento all'AI Act (Regolamento UE 2024/1689), le linee guida AgID già vincolanti (Det. n. 17/2025 sull'adozione), quelle in consultazione sullo sviluppo e l'approvvigionamento (Det. n. 43/2026) — tutto questo richiede che la PA produca documentazione di qualità: DPIA, registri dei trattamenti, analisi dei rischi, determine di adozione.

I modelli sono pronti a supportare questo lavoro. Ma la qualità dell'output dipende dalla qualità dell'input. Un funzionario che scrive "fammi una DPIA per il nostro chatbot" otterrà un risultato generico e inutilizzabile. Un funzionario che specifica il sistema (chatbot per informazioni demografiche), la base giuridica (art. 6.1.e GDPR), le categorie di dati trattati, il livello di rischio atteso secondo la classificazione dell'AI Act, e i criteri di completezza del documento — otterrà una bozza su cui lavorare.

La variabile critica non è più il modello. È chi scrive il prompt.

Conclusione: il modello è pronto. E voi?

Entrambe le guide, ciascuna con il proprio linguaggio e le proprie priorità, dicono la stessa cosa: i modelli del 2026 sono significativamente più capaci di quelli del 2025, ma richiedono un operatore più consapevole. La vaghezza che prima veniva compensata dall'inferenza del modello adesso produce output mediocri o, peggio, inaffidabili.

Chi usa un solo modello deve imparare a parlare la lingua di quel modello. Chi ne usa tre contemporaneamente — confrontando, validando, integrando — ha un vantaggio strutturale, a patto di investire quei due minuti in più per costruire prompt adeguati a ciascuno.

Non si tratta di diventare "prompt engineer". Si tratta di smettere di sprecare il proprio tempo e quello del modello. E in un'epoca in cui l'IA entra nella PA, nella sanità, nella giustizia, nella scuola — la differenza tra un prompt vago e un prompt preciso è la differenza tra un documento che finisce nel cestino e uno che finisce sulla scrivania del dirigente.

Achille De Tommaso, in collaborazione con ANCI, Coordina l'Osservatorio ANFoV sull'IA nei Comuni italiani

Ultimo aggiornamento:18/05/2026 16:40:52