Cosa significa vero per un modello che non ha credenze

Il Fatto

Quando un modello linguistico afferma che la Torre Eiffel si trova a Berlino, lo sta mentendo? La domanda sembra retorica, ma la risposta ha conseguenze precise sul modo in cui si costruiscono i sistemi di verifica dei fatti generati dall'intelligenza artificiale.

Nel 2021, Emily Bender, Timnit Gebru e colleghe pubblicano "On the Dangers of Stochastic Parrots", un paper che introduce una metafora rimasta nel dibattito: i modelli linguistici sono pappagalli stocastici. Non producono significato — producono forme linguistiche statisticamente plausibili, "cucendo insieme sequenze di forme linguistiche osservate nei dati di addestramento, secondo informazioni probabilistiche su come si combinano, ma senza alcun riferimento al significato". [1]

La distinzione non è semantica nel senso filosofico — è operativa. Un sistema che mente sa che sta mentendo: ha una credenza vera e produce deliberatamente una credenza falsa nell'interlocutore. Un sistema che massimizza la probabilità dei token non mente e non dice la verità: genera la sequenza più probabile dato il contesto. La categoria morale non si applica. Ma la categoria tecnica — l'output errato — rimane, e chi progetta sistemi di verifica deve scegliere quale delle due logiche seguire.

Il Contesto

Il dibattito accademico sulla natura degli LLM si è intensificato tra il 2022 e il 2024. Un sondaggio condotto su ricercatori NLP attivi ha prodotto una divisione quasi esatta: il 51% ritiene che un modello addestrato solo su testo possa comprendere il linguaggio in qualche senso non banale, il 49% no. [2]

La tensione centrale è quella tra sintassi e semantica. I critici degli LLM sostengono che questi sistemi non riescono a distinguere "tra correttezza e probabilità" — producono output grammaticalmente coerenti perché la coerenza grammaticale è il pattern statisticamente dominante nei dati, non perché abbiano accesso a una struttura di significato. Secondo questa lettura, la domanda "ha detto il falso?" è mal posta: manca il soggetto che può avere credenze.

Sul versante opposto, Simon Goldstein e Benjamin Levinstein, in "Does ChatGPT Have a Mind?" (2024), sostengono che i modelli hanno rappresentazioni interne robuste e che le sfide scettiche convenzionali alla loro attribuzione di credenze "non sopravvivono allo scrutinio filosofico". [3] Questo non risolve il problema del design — anzi, lo complica: se il modello ha rappresentazioni interne che funzionano come credenze, perché le viola così facilmente producendo output falsi?

La ricerca su questo punto ha prodotto una distinzione utile: "confabulazione" vs "allucinazione". Il termine "allucinazione" importa nel dominio dell'IA una metafora percettiva — il sistema vede qualcosa che non c'è. Ma i modelli non percepiscono: generano. "Confabulazione" — mutuata dalla neuropsicologia, dove descrive la produzione di falsi ricordi senza intenzione ingannevole — descrive meglio il meccanismo: il sistema produce narrazioni plausibili senza un meccanismo di verifica interno. [4]

La scelta terminologica non è accademica. "Allucinazione" suggerisce un sistema di verifica interno che funziona male: basta calibrarlo meglio. "Confabulazione" suggerisce l'assenza di quel sistema: va costruito dall'esterno.

L'Analisi

La distinzione tra massimizzazione della probabilità e asserzione sincera ha radici nella teoria degli atti linguistici di John Searle. Un'asserzione, nella teoria di Searle, richiede una condizione di sincerità: chi la compie deve credere che il contenuto proposizionale sia vero. [5] Un LLM non compie asserzioni in questo senso tecnico — compie qualcosa che ne ha la forma senza averne le condizioni.

Questa distinzione è stata formalizzata in termini computazionali da ricercatori come Levinstein e Herrmann, che in "Still no lie detector for language models" (2024) argomentano che anche se si accettasse che i modelli abbiano credenze, i metodi per rilevare le affermazioni false sarebbero impraticabili per ragioni concettuali — non solo tecniche. Il problema non è calibrare meglio il termometro: il termometro misura la temperatura sbagliata. [6]

Il punto operativo è questo: un sistema di verifica progettato su una semantica intenzionale — cercando di capire "cosa crede il modello" — è strutturalmente mal impostato. I modelli non hanno un registro delle credenze da confrontare con l'output. Quello che hanno è una distribuzione di probabilità su token, condizionata al contesto. La verifica deve operare sull'output, non su un supposto stato interno.

Questo riorientamento — dall'interno all'esterno — ha implicazioni concrete per l'architettura dei sistemi. La ricerca recente in Retrieval-Augmented Generation (RAG) ha mostrato che integrare il grounding esterno prima della generazione riduce significativamente gli errori fattuali. [7] Ma il motivo del successo del RAG illumina il problema concettuale: il RAG funziona perché non corregge il modello — lo vincola. La verifica non è interna, è strutturale.

Le Implicazioni

Accettare che un LLM non faccia asserzioni sincere ridisegna le priorità di un sistema di verifica in almeno quattro modi.

Primo: il punto di intervento si sposta.Se il modello non ha un meccanismo interno di verifica, intervenire post-generazione — correggere l'output — è costoso e parziale. Il punto di intervento più efficace è prima della generazione: strutturare il contesto in modo che la sequenza più probabile sia anche quella più accurata. Il RAG non è una correzione; è un redesign del contesto.

Secondo: la metrica di qualità cambia.Un sistema pensato per rilevare "menzogne" cerca pattern di incoerenza interna, assume che ci sia qualcosa da smascherare. Un sistema pensato per verificare output probabilistici cerca alignment con fonti esterne verificabili, decomponendo ogni claim in proposizioni atomiche verificabili indipendentemente. Ricerche recenti su sistemi come MARCH (Multi-Agent Reinforced Self-Check) mostrano che l'auto-consistenza del modello è un segnale utile ma insufficiente: serve grounding esterno. [8]

Terzo: la granularità della verifica deve aumentare.Il modello non produce claim come unità discrete — produce testo continuo da cui i claim devono essere estratti. I sistemi più recenti lavorano a livello di token uncertainty: quantificano l'incertezza del modello token per token, usando quella distribuzione come segnale di rischio per il claim che contiene quel token. Questo approccio tratta l'output come ciò che è — una sequenza di distribuzioni di probabilità — invece di applicarvi categorie semantiche inadeguate. [9]

Quarto: la responsabilità del design si sposta sul sistema, non sul modello.Se il modello non può mentire perché non ha credenze, la responsabilità dell'accuratezza non può essere attribuita al modello. Ricade sul sistema che lo ospita, sull'architettura che lo vincola, sull'operatore che definisce il contesto. Questa è la traduzione pratica più importante della distinzione concettuale.

La Domanda Aperta

La questione che rimane aperta non è filosofica: è di architettura. Se si accetta che i modelli non facciano asserzioni sincere, un sistema di fact-checking deve essere ridisegnato intorno a questa premessa. Ma ridisegnato come?

L'ipotesi più promettente è quella di sistemi ibridi: un modello linguistico per la generazione, un modulo di verifica esterno per il grounding, un layer di uncertainty quantification per la segnalazione del rischio token per token. Nessuno di questi componenti assume che il modello "sappia" cosa è vero — assumono che produca output la cui accuratezza va verificata sistematicamente dall'esterno.

La domanda operativa diventa: cosa cambia nel design di un sistema di verifica quando si smette di cercare la menzogna e si inizia a misurare il rischio probabilistico? La risposta cambia il tipo di expertise richiesto (probabilistica, non ermeneutica), gli strumenti adeguati (uncertainty quantification, non analisi dell'intento), e le metriche di successo (copertura e recall dei claim errati, non tasso di inganno rilevato).

Non è una domanda per filosofi del linguaggio. È una domanda per chi costruisce i prossimi sistemi di informazione.

Le Fonti

Bender, E. M., Gebru, T., McMillan-Major, A., & Mitchell, M. (2021).On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?Proceedings of FAccT '21, pp. 610–623. ACM.PDF
Debate survey (2022–2023).The Debate Over Understanding in AI's Large Language Models. ArXiv preprint.ArXiv 2210.13966
Goldstein, S., & Levinstein, B. A. (2024).Does ChatGPT Have a Mind?ArXiv preprint.ArXiv 2407.11015
Plos Digital Health (2024).Hallucination or Confabulation? Neuroanatomy as metaphor in Large Language Models. PLOS Digital Health.Link
Chatting with Bots team (2024).Chatting with Bots: AI, Speech Acts, and the Edge of Assertion. ArXiv preprint.ArXiv 2410.16645
Levinstein, B. A., & Herrmann, D. A. (2024).Still no lie detector for language models: probing empirical and conceptual roadblocks. PhilPapers.PhilPapers
Springer Nature (2025).Retrieval-Augmented Generation (RAG). Business & Information Systems Engineering.Link
MARCH team (2025).MARCH: Multi-Agent Reinforced Self-Check for LLM Hallucination. ArXiv preprint.ArXiv 2603.24579
ArXiv (2024).Fact-Checking the Output of Large Language Models via Token-Level Uncertainty Quantification.ArXiv 2403.04696