Learn

Was ist RAG in der KI? (Retrieval-Augmented Generation, einfach erklärt)

GFGrigory Frolov Aktualisiert 2026-05

Retrieval-Augmented Generation: Dokumente werden zu einer klaren Antwort herangezogen

RAG (Retrieval-Augmented Generation) ist ein Verfahren, bei dem ein KI-Modell zunächst relevante Informationen aus einer externen Quelle – wie den Dokumenten eines Unternehmens oder einer Datenbank – abruft und diese Informationen anschließend zur Beantwortung nutzt. Anstatt sich nur auf das zu verlassen, was es während des Trainings „gelernt“ hat, „schlägt“ das Modell zuerst nach. Dadurch werden Antworten genauer, aktueller und auf Ihre spezifischen Daten bezogen.

Wenn Sie schon einmal einem Chatbot eine Frage gestellt haben und er hat selbstbewusst etwas erfunden, kennen Sie das Problem, das RAG löst. Große Sprachmodelle (LLMs) wissen nur, was sie beim Training gelernt haben – dieses Wissen ist eingefroren und allgemein. RAG behebt das, indem das Modell vor der Antwort echte, relevante Quellen konsultiert.

RAG einfach erklärt

Stellen Sie sich den Unterschied zwischen einer Prüfung mit und ohne Hilfsmittel vor. Ein Standard-LLM macht eine Prüfung ohne Hilfsmittel – es antwortet nur aus dem Gedächtnis und rät deshalb manchmal oder erfindet Fakten. RAG macht daraus eine Prüfung mit Hilfsmitteln: Bevor die KI antwortet, schlägt sie im „Buch“ (Ihren Dokumenten, einer Wissensdatenbank, dem Web) nach, findet die relevanten Seiten und formuliert die Antwort auf Basis dessen, was sie gerade gelesen hat.

Das Modell schreibt die Antwort immer noch selbst – aber jetzt auf Grundlage von Quellen statt aus dem Gedächtnis.

Wie RAG funktioniert

RAG läuft bei jeder Frage in drei Schritten ab:

Abrufen. Ihre Frage wird genutzt, um eine externe Wissensquelle zu durchsuchen (Dokumente, Datenbank, Website). Das System zieht die relevantesten Textstellen heran – oft mit einer Vektordatenbank, die Passagen nach Bedeutung statt nur nach Stichworten findet.
Erweitern. Die abgerufenen Passagen werden Ihrer Frage hinzugefügt und dem LLM als zusätzlicher Kontext übergeben – im Prinzip: „Hier ist die Frage, und hier sind relevante Informationen zur Beantwortung.“
Generieren. Das LLM formuliert eine Antwort, die auf den abgerufenen Informationen basiert, und zitiert oder referenziert dabei oft die Quellen.

RAG in drei Schritten: relevante Texte abrufen, den Prompt damit erweitern und dann eine fundierte Antwort generieren.

Warum RAG wichtig ist

RAG löst drei zentrale Schwächen von reinen LLMs:

Weniger Halluzinationen. Antworten, die auf abgerufenen Fakten beruhen, machen das Modell deutlich weniger anfällig fürs Erfinden.
Aktuelles und privates Wissen. Ein Modell, das letztes Jahr trainiert wurde, kennt Ihre neuesten Dokumente oder aktuelle Nachrichten nicht. Mit RAG kann es auf aktuelle, interne oder vertrauliche Informationen zugreifen – ohne erneutes Training.
Antworten sind überprüfbar. Da Antworten aus konkreten Quellen stammen, kann angegeben werden, woher die Information kommt – das schafft Vertrauen.

Deshalb werden die meisten KI-Assistenten für Unternehmen – Support-Bots, interne „Frag unsere Doku“-Tools, Rechercheassistenten – mit RAG gebaut.

RAG vs. Fine-Tuning

Oft werden RAG und Fine-Tuning verwechselt. Sie lösen aber unterschiedliche Probleme:

	RAG	Fine-Tuning
Was es macht	Gibt dem Modell Wissen, das es zur Antwort nachschlagen kann	Bringt dem Modell neues Verhalten/Stil beim Training bei
Aktualisierung von Infos	Einfach – einfach die Dokumente aktualisieren	Schwierig – erneutes Training nötig
Am besten für	Fakten, wechselnde oder private Daten	Tonfall, Format, spezielle Fähigkeiten
Wartungskosten	Gering	Höher

In der Praxis kombinieren viele Systeme beides: Fine-Tuning für das Wie der Antwort, RAG für das Was.

Beispiele aus der Praxis

Ein Kundensupport-Bot, der aus Ihrem Helpcenter und Produktdokumenten antwortet.
Ein interner „Frag unser Unternehmen“-Assistent, der Richtlinien, Wikis und alte Tickets durchsucht.
Ein Recherche-Tool, das aus einer Bibliothek von Fachartikeln zieht und diese zitiert.
Eine Suchfunktion, die Ergebnisse mit Quellen zusammenfasst (wie AI Overviews).

Braucht man RAG noch bei langen Kontextfenstern?

Moderne Modelle können sehr lange Eingaben lesen – warum also nicht einfach alles einfügen? Weil das teuer, langsam und nicht skalierbar ist: Das gesamte Wissen eines Unternehmens passt nicht in einen Prompt, und Sie zahlen bei jeder Anfrage dafür. RAG holt nur den relevanten Ausschnitt – günstiger, schneller und präziser. Langer Kontext und RAG ergänzen sich, sie konkurrieren nicht.

Häufig gestellte Fragen

Wofür steht RAG?
RAG steht für Retrieval-Augmented Generation – ein KI-Verfahren, bei dem relevante Informationen vor der Antwort abgerufen werden.

Wie funktioniert RAG?
In drei Schritten: relevante Texte aus einer externen Quelle abrufen, den Prompt damit erweitern und eine darauf basierende Antwort generieren.

Warum wird RAG eingesetzt?
Um Halluzinationen zu reduzieren, Modellen Zugang zu aktuellem oder privatem Wissen ohne erneutes Training zu geben und Antworten durch echte Quellen überprüfbar zu machen.

Was ist der Unterschied zwischen RAG und Fine-Tuning?
RAG gibt dem Modell Wissen, das es bei der Antwort nachschlagen kann, und ist leicht zu aktualisieren; Fine-Tuning verändert das Verhalten oder den Stil des Modells beim Training und ist schwerer zu aktualisieren. Oft werden beide Ansätze kombiniert.

Braucht man RAG noch bei großen Kontextfenstern?
Ja. Alles in einen langen Prompt zu kopieren ist teuer, langsam und nicht skalierbar. RAG holt nur die relevanten Informationen – günstiger, schneller und genauer.

Was ist ein einfaches Beispiel für RAG?
Ein Support-Chatbot, der in Ihren Hilfedokumenten nach dem passenden Artikel sucht und darauf basierend antwortet – statt aus dem Gedächtnis zu raten.

Sie möchten den gesamten KI-Wortschatz kennenlernen? Lesen Sie unsere Erklärungen zu LLMs, generativer KI und KI-Agenten – und wie RAG KI-Automatisierung ermöglicht.