Learn

Cos'è il RAG nell'AI? (Retrieval-Augmented Generation, Spiegato Semplicemente)

GFGrigory Frolov Aggiornato 2026-05

Retrieval-Augmented Generation: documenti recuperati per una risposta chiara

RAG (Retrieval-Augmented Generation) è un metodo in cui un modello di AI prima recupera informazioni rilevanti da una fonte esterna — come i documenti di un’azienda o un database — e poi utilizza queste informazioni per generare la sua risposta. Invece di affidarsi solo a ciò che ha memorizzato durante l’addestramento, il modello “cerca” prima le informazioni. Questo rende le risposte più accurate, aggiornate e basate sui tuoi dati specifici.

Se ti è mai capitato di fare una domanda a un chatbot e lui ha inventato una risposta con sicurezza, hai visto il problema che il RAG risolve. I grandi modelli linguistici (LLM) conoscono solo ciò su cui sono stati addestrati, e quella conoscenza è congelata e generica. Il RAG risolve questo problema permettendo al modello di consultare fonti reali e rilevanti prima di rispondere.

RAG in parole semplici

Pensa alla differenza tra un esame a libro chiuso e uno a libro aperto. Un LLM standard sostiene un esame a libro chiuso — risponde solo a memoria, motivo per cui a volte indovina o inventa dei fatti. Il RAG lo trasforma in un esame a libro aperto: prima di rispondere, l’AI apre il “libro” (i tuoi documenti, una knowledge base, il web), trova le pagine rilevanti e scrive la risposta basandosi su ciò che ha appena letto.

Il modello scrive comunque la risposta — ma ora lo fa partendo da materiale con fonti, non solo dalla memoria.

Come funziona il RAG

Il RAG avviene in tre passaggi, ogni volta che fai una domanda:

Recupera. La tua domanda viene utilizzata per cercare in una fonte di conoscenza esterna (documenti, un database, un sito web). Il sistema estrae i testi più rilevanti — spesso usando un database vettoriale che trova i passaggi per significato, non solo per parole chiave.
Arricchisce. I passaggi recuperati vengono aggiunti alla tua domanda e forniti all’LLM come contesto extra — in pratica: “Ecco la domanda, ed ecco le informazioni rilevanti per rispondere.”
Genera. L’LLM scrive una risposta basata sulle informazioni recuperate, spesso citando o riportando le fonti.

RAG in tre passaggi: recupera il testo rilevante, arricchisce il prompt con esso, poi genera una risposta fondata.

Perché il RAG è importante

Il RAG risolve tre limiti reali degli LLM utilizzati da soli:

Riduce le allucinazioni. Basare le risposte su fatti recuperati rende il modello molto meno incline a inventare.
Aggiunge conoscenza aggiornata e privata. Un modello addestrato l’anno scorso non conosce i tuoi ultimi documenti o le notizie della settimana. Il RAG permette di rispondere con informazioni attuali, interne o proprietarie senza riaddestrare.
Rende le risposte verificabili. Poiché le risposte provengono da fonti specifiche, possono citare da dove arrivano le informazioni — aumentando la fiducia.

Ecco perché la maggior parte degli assistenti AI aziendali — chatbot di supporto clienti, strumenti interni “chiedi ai nostri documenti”, assistenti di ricerca — sono costruiti con il RAG.

RAG vs fine-tuning

Spesso si confonde il RAG con il fine-tuning. Risolvono problemi diversi:

	RAG	Fine-tuning
Cosa fa	Fornisce al modello conoscenza da consultare al momento della risposta	Insegna al modello nuovi comportamenti/stili durante l’addestramento
Aggiornare le info	Facile — basta aggiornare i documenti	Difficile — serve riaddestrare
Ideale per	Dati fattuali, variabili o privati	Tono, formato, competenze specialistiche
Costo di mantenimento	Basso	Più alto

Nella pratica, molti sistemi usano entrambi: fine-tuning per come il modello risponde, RAG per cosa conosce.

Esempi reali

Un chatbot di supporto clienti che risponde dai tuoi documenti di prodotto e help center.
Un assistente interno “chiedi alla nostra azienda” che cerca tra policy, wiki e ticket passati.
Uno strumento di ricerca che attinge da una biblioteca di articoli e li cita.
Un’esperienza di ricerca che riassume i risultati con le fonti (come AI Overviews).

Serve ancora il RAG con finestre di contesto lunghe?

I modelli moderni possono leggere input molto lunghi, quindi perché non incollare tutto? Perché è costoso, lento e non scalabile — non puoi inserire tutta la conoscenza di un’azienda in un prompt, e pagheresti per ogni query. Il RAG recupera solo la parte rilevante, che è più economica, veloce e precisa. Contesto lungo e RAG sono complementari, non in competizione.

Domande frequenti

Cosa significa RAG?
RAG significa Retrieval-Augmented Generation — un metodo AI che recupera informazioni rilevanti prima di generare una risposta.

Come funziona il RAG?
In tre passaggi: recupera testo rilevante da una fonte esterna, arricchisce il prompt con quel testo e genera una risposta fondata su di esso.

Perché si usa il RAG?
Per ridurre le allucinazioni, dare ai modelli accesso a dati aggiornati o privati senza riaddestramento e rendere le risposte verificabili basandole su fonti reali.

Qual è la differenza tra RAG e fine-tuning?
Il RAG fornisce al modello conoscenza da consultare al momento della risposta ed è facile da aggiornare; il fine-tuning cambia il comportamento o lo stile del modello durante l’addestramento ed è più difficile da aggiornare. Spesso vengono usati insieme.

Serve ancora il RAG con finestre di contesto grandi?
Sì. Incollare tutto in un prompt lungo è costoso, lento e non scalabile. Il RAG recupera solo le informazioni rilevanti, che è più economico, veloce e preciso.

Un esempio semplice di RAG?
Un chatbot di supporto che cerca nei tuoi help doc l’articolo rilevante e poi scrive una risposta basata su quello — invece di indovinare a memoria.

Vuoi il resto del vocabolario AI? Scopri i nostri approfondimenti su cos’è un LLM, AI generativa e AI agent — e come il RAG alimenta l’automazione AI.