LernenToolsKI nutzenGeld verdienenNewsGratis-Tools Kostenlos anmelden →
Learn

Was ist RAG in der KI? (Retrieval-Augmented Generation, einfach erklärt)

Retrieval-Augmented Generation: Dokumente werden zu einer klaren Antwort herangezogen

RAG (Retrieval-Augmented Generation) ist ein Verfahren, bei dem ein KI-Modell zunächst relevante Informationen aus einer externen Quelle – wie den Dokumenten eines Unternehmens oder einer Datenbank – abruft und diese Informationen anschließend zur Beantwortung nutzt. Anstatt sich nur auf das zu verlassen, was es während des Trainings „gelernt“ hat, „schlägt“ das Modell zuerst nach. Dadurch werden Antworten genauer, aktueller und auf Ihre spezifischen Daten bezogen.

Wenn Sie schon einmal einem Chatbot eine Frage gestellt haben und er hat selbstbewusst etwas erfunden, kennen Sie das Problem, das RAG löst. Große Sprachmodelle (LLMs) wissen nur, was sie beim Training gelernt haben – dieses Wissen ist eingefroren und allgemein. RAG behebt das, indem das Modell vor der Antwort echte, relevante Quellen konsultiert.

RAG einfach erklärt

Stellen Sie sich den Unterschied zwischen einer Prüfung mit und ohne Hilfsmittel vor. Ein Standard-LLM macht eine Prüfung ohne Hilfsmittel – es antwortet nur aus dem Gedächtnis und rät deshalb manchmal oder erfindet Fakten. RAG macht daraus eine Prüfung mit Hilfsmitteln: Bevor die KI antwortet, schlägt sie im „Buch“ (Ihren Dokumenten, einer Wissensdatenbank, dem Web) nach, findet die relevanten Seiten und formuliert die Antwort auf Basis dessen, was sie gerade gelesen hat.

Das Modell schreibt die Antwort immer noch selbst – aber jetzt auf Grundlage von Quellen statt aus dem Gedächtnis.

Wie RAG funktioniert

RAG läuft bei jeder Frage in drei Schritten ab:

  1. Abrufen. Ihre Frage wird genutzt, um eine externe Wissensquelle zu durchsuchen (Dokumente, Datenbank, Website). Das System zieht die relevantesten Textstellen heran – oft mit einer Vektordatenbank, die Passagen nach Bedeutung statt nur nach Stichworten findet.
  2. Erweitern. Die abgerufenen Passagen werden Ihrer Frage hinzugefügt und dem LLM als zusätzlicher Kontext übergeben – im Prinzip: „Hier ist die Frage, und hier sind relevante Informationen zur Beantwortung.“
  3. Generieren. Das LLM formuliert eine Antwort, die auf den abgerufenen Informationen basiert, und zitiert oder referenziert dabei oft die Quellen.
? Ihre Frage Was Sie die KI fragen 1 Abrufen Wissensbasis durchsuchen 2 Erweitern Kontext zum Prompt hinzufügen 3 Generieren Eine fundierte Antwort
RAG in drei Schritten: relevante Texte abrufen, den Prompt damit erweitern und dann eine fundierte Antwort generieren.

Warum RAG wichtig ist

RAG löst drei zentrale Schwächen von reinen LLMs:

Deshalb werden die meisten KI-Assistenten für Unternehmen – Support-Bots, interne „Frag unsere Doku“-Tools, Rechercheassistenten – mit RAG gebaut.

RAG vs. Fine-Tuning

Oft werden RAG und Fine-Tuning verwechselt. Sie lösen aber unterschiedliche Probleme:

RAGFine-Tuning
Was es machtGibt dem Modell Wissen, das es zur Antwort nachschlagen kannBringt dem Modell neues Verhalten/Stil beim Training bei
Aktualisierung von InfosEinfach – einfach die Dokumente aktualisierenSchwierig – erneutes Training nötig
Am besten fürFakten, wechselnde oder private DatenTonfall, Format, spezielle Fähigkeiten
WartungskostenGeringHöher

In der Praxis kombinieren viele Systeme beides: Fine-Tuning für das Wie der Antwort, RAG für das Was.

Beispiele aus der Praxis

Braucht man RAG noch bei langen Kontextfenstern?

Moderne Modelle können sehr lange Eingaben lesen – warum also nicht einfach alles einfügen? Weil das teuer, langsam und nicht skalierbar ist: Das gesamte Wissen eines Unternehmens passt nicht in einen Prompt, und Sie zahlen bei jeder Anfrage dafür. RAG holt nur den relevanten Ausschnitt – günstiger, schneller und präziser. Langer Kontext und RAG ergänzen sich, sie konkurrieren nicht.

Häufig gestellte Fragen

Wofür steht RAG?
RAG steht für Retrieval-Augmented Generation – ein KI-Verfahren, bei dem relevante Informationen vor der Antwort abgerufen werden.

Wie funktioniert RAG?
In drei Schritten: relevante Texte aus einer externen Quelle abrufen, den Prompt damit erweitern und eine darauf basierende Antwort generieren.

Warum wird RAG eingesetzt?
Um Halluzinationen zu reduzieren, Modellen Zugang zu aktuellem oder privatem Wissen ohne erneutes Training zu geben und Antworten durch echte Quellen überprüfbar zu machen.

Was ist der Unterschied zwischen RAG und Fine-Tuning?
RAG gibt dem Modell Wissen, das es bei der Antwort nachschlagen kann, und ist leicht zu aktualisieren; Fine-Tuning verändert das Verhalten oder den Stil des Modells beim Training und ist schwerer zu aktualisieren. Oft werden beide Ansätze kombiniert.

Braucht man RAG noch bei großen Kontextfenstern?
Ja. Alles in einen langen Prompt zu kopieren ist teuer, langsam und nicht skalierbar. RAG holt nur die relevanten Informationen – günstiger, schneller und genauer.

Was ist ein einfaches Beispiel für RAG?
Ein Support-Chatbot, der in Ihren Hilfedokumenten nach dem passenden Artikel sucht und darauf basierend antwortet – statt aus dem Gedächtnis zu raten.


Sie möchten den gesamten KI-Wortschatz kennenlernen? Lesen Sie unsere Erklärungen zu LLMs, generativer KI und KI-Agenten – und wie RAG KI-Automatisierung ermöglicht.

Teilen X LinkedIn Reddit
GF

20+ Jahre in Web, SEO und Automatisierung. Ich teste KI-Tools in der Praxis und teile, was für Creator und kleine Teams wirklich funktioniert.

Werde gut in KI – eine praktische E-Mail pro Woche.

Tools, Anwendungsfälle und Abkürzungen, die du anwenden kannst. Kein Hype.