exponent
KI

RAG-Chatbot mit eigenem Unternehmenswissen: Architektur, Kosten und DSGVO-Umsetzung für österreichische KMU

TL;DR

  • RAG (Retrieval-Augmented Generation) kombiniert ein Sprachmodell mit einem eigenen Dokumenten-Index. Der Bot antwortet ausschließlich auf Basis Ihrer Inhalte — keine Halluzinationen aus dem Training.
  • Typische Kostenrahmen in Österreich: 3.000–8.000 € für einen schlanken Proof-of-Concept, 10.000–25.000 € für eine produktionsreife Lösung, 500–2.000 €/Monat laufend.
  • DSGVO-konform wird RAG über drei Hebel: EU-Region beim LLM-Anbieter (Azure OpenAI EU, AWS Bedrock EU), klare Auftragsverarbeitungsverträge und Minimierung der gespeicherten Personendaten.
  • Der größte Fehler bei RAG-Projekten: zu viele Dokumente reinkippen. Qualität der Indexierung schlägt Masse jedes Mal.

Was RAG ist — und warum KMU es brauchen

Ein klassischer Chatbot basiert entweder auf starren Regeln („Wenn Nutzer A, dann B") oder auf einem vortrainierten Sprachmodell, das mit allgemeinem Wissen antwortet. Beides passt schlecht, wenn Kunden Fragen zu Ihren Produkten, Ihren Verträgen, Ihrer Preisliste oder Ihren Supportprozessen stellen.

RAG löst das über zwei Schritte:

  1. Retrieval — Der Bot sucht in Ihrem eigenen Dokumentenbestand nach den relevantesten Abschnitten (typisch über Vektor-Ähnlichkeit).
  2. Generation — Ein Sprachmodell formuliert aus den gefundenen Abschnitten eine Antwort in natürlicher Sprache, mit Quellenangabe.

Das Modell bringt Sprachverständnis und Formulierungsfähigkeit mit. Die Wahrheit kommt aus Ihren Dokumenten. Fällt der Abschnitt nicht ins Retrieval, antwortet der Bot sauber mit „Das weiß ich nicht" statt zu raten.


Die Architektur im Detail

Ein RAG-System besteht aus vier Kernkomponenten:

1. Dokumenten-Pipeline

Ihre Quellen (PDFs, Word-Dokumente, Handbücher, interne Wikis, Produkt-Datenblätter, FAQ-Sammlungen) werden in Chunks zerschnitten — typisch 300–800 Token. Jeder Chunk wird in einen Embedding-Vektor umgewandelt. Das passiert einmalig beim Einlesen und bei jedem Update.

2. Vektor-Datenbank

Die Vektoren werden in einer Datenbank gespeichert, die schnell Ähnlichkeitssuchen erlaubt. Für AT-KMU realistisch:

  • pgvector (PostgreSQL-Extension) — unsere Standardwahl, weil selbst hostbar in EU und mit bestehendem Postgres integrierbar.
  • Qdrant — open-source, sehr schnell, gute Filter-Möglichkeiten.
  • Weaviate — etwas schwerer, aber breiter funktional.
  • Supabase Vector — bequem, wenn Sie ohnehin Supabase nutzen.

Was wir nicht empfehlen: US-hosted Managed Services ohne EU-Region (Pinecone Standard US, etc.), außer der Anwendungsfall ist explizit DSGVO-unkritisch.

3. Sprachmodell (LLM)

Für die Generierung gibt es drei Optionen mit klaren DSGVO-Implikationen:

VarianteAnbieterDSGVO-StatusKosten pro Antwort
Managed, EU-RegionAzure OpenAI EU, AWS Bedrock FrankfurtMit Auftragsverarbeitungsvertrag und Region-Lock gut handhabbarniedrig
Managed, globalOpenAI API Standardohne weitere Maßnahmen rechtlich riskant bei Personendatenniedrig
Self-hostedLlama 3.1, Mistral, Qwenmaximale Kontrolle, dafür höherer Betriebsaufwandhöher (GPU-Hosting)

Für die meisten KMU ist Azure OpenAI in der EU oder AWS Bedrock Frankfurt der beste Kompromiss: EU-Datenverarbeitung, vertragliche Zusicherungen, moderne Modelle, bezahlbare Preise.

4. Orchestrierung

Das Stück, das Nutzer-Frage → Retrieval → Prompt → Modell → Antwort zusammenbaut. In der Praxis entweder selbst gebaut (schlank, volle Kontrolle) oder mit Frameworks wie LangChain, LlamaIndex oder n8n-Workflows.


DSGVO-Umsetzung: Die 5 nicht verhandelbaren Punkte

  1. Auftragsverarbeitungsvertrag (AVV) mit jedem Anbieter, dessen API Personendaten berührt — Azure, AWS, OpenAI (wenn die Enterprise-Variante genutzt wird).
  2. Datenregion EU beim LLM und bei der Vektor-DB. Wenn der Anbieter das nicht zusichern kann, ist er raus.
  3. Datenminimierung im Index: Personennamen, Kundendaten, Verträge gehören in der Regel nicht ins öffentliche RAG. Interne Wissensbasen müssen durch Authentifizierung geschützt werden.
  4. Logging-Policy: Was wird gespeichert, wie lange, wer hat Zugriff? Antworten-Logs helfen bei der Qualitätsverbesserung — sie müssen aber DSGVO-konform aufbewahrt werden (Zweck, Frist, Zugriffskontrolle).
  5. Transparenz-Hinweis: Nutzer müssen erkennen, dass sie mit einer KI interagieren — das ist ab 02.08.2026 AI-Act-Pflicht, nicht nur Nice-to-have.

Kostenrahmen für AT-KMU

Proof of Concept (3.000–8.000 €)

  • 20–100 Dokumente einindiziert
  • Einfaches Chat-UI auf einer Subseite
  • EU-Region, aber noch ohne Hochverfügbarkeit
  • Datenimport manuell, Updates ebenfalls

Ziel: Zeigen, dass die Technologie für Ihren Anwendungsfall funktioniert. Typisch in 3–5 Wochen umsetzbar.

Produktionsreife Lösung (10.000–25.000 €)

  • Automatisierte Dokumenten-Pipeline (inkl. Scheduler)
  • Vektor-DB selbst gehostet oder in EU-Managed
  • Admin-Bereich zum Hinzufügen/Entfernen von Quellen
  • Authentifizierung, Audit-Log, Feedback-Loop
  • Integration in bestehende Systeme (CMS, CRM, Helpdesk)
  • Transparenz-Hinweise für AI-Act-Compliance

Laufende Kosten (500–2.000 €/Monat)

  • LLM-API: stark abhängig vom Traffic. Ein mittelgroßer KMU-Bot mit 5.000 Anfragen/Monat und Azure OpenAI GPT-4.1 EU kostet typisch 150–400 € LLM-Tokens.
  • Vektor-DB: selbst gehostet ab 30 €/Monat, Managed 80–300 €/Monat.
  • Hosting + Monitoring: 50–150 €/Monat.
  • Wartung: 4–12 Stunden/Monat bei uns, je nach Umfang.

Die größte Kostenvariable ist die Anzahl der Anfragen — das ist gleichzeitig der Teil, den Sie am wenigsten kontrollieren.


Wo RAG Sinn ergibt — und wo nicht

Sinnvoll für:

  • Support-Entlastung: Der Bot beantwortet Standardfragen („Wie ist euer Rückgaberecht?", „Was kostet Variante X?") auf Basis Ihrer AGB, Preislisten und Handbücher.
  • Interne Wissensdatenbank: Mitarbeiter fragen den Bot statt im Wiki zu suchen. Besonders wertvoll bei Unternehmen mit vielen Standards, Verträgen oder technischen Dokumenten.
  • Produktberatung: Kunden bekommen Empfehlungen aus dem eigenen Sortiment.
  • Onboarding: Neue Mitarbeiter fragen den Bot statt Kollegen, wenn es um nicht-dringende Routinefragen geht.

Nicht sinnvoll für:

  • Einfache FAQ mit 10 statischen Fragen — das ist mit einem klassischen Chatbot billiger und besser.
  • Transaktionale Prozesse (Buchung, Bezahlung, Vertragsabschluss) — hier gehört eine strukturierte UI hin, nicht ein Chatfenster.
  • Hochrisiko-Entscheidungen: Medizin, Recht, Finanz. Hier ist die Verantwortung zu groß, um sie einer probabilistischen Antwortmaschine zu überlassen.
  • Traffic unter 200 Anfragen/Monat — die Entwicklungskosten amortisieren sich nicht.

Die 5 häufigsten Fehler bei RAG-Projekten

  1. Zu viele Dokumente reinkippen. „Alles" ist ein schlechter Index. Qualität schlägt Masse. 100 sauber aufbereitete Dokumente sind besser als 10.000 ungefilterte.
  2. Chunking ignorieren. Standard-Chunking reicht oft nicht. Tabellen, Listen und strukturierte Daten brauchen angepasste Strategien.
  3. Ohne Evaluation starten. Sie brauchen 20–40 Test-Prompts mit erwarteten Antworten, bevor Sie live gehen. Ohne das messen Sie Verbesserungen nur nach Gefühl.
  4. Feedback-Loop fehlt. Nutzer sollen „Antwort war hilfreich / nicht hilfreich" markieren können. Ohne das lernen Sie nie, welche Dokumente fehlen oder welche Antworten irreführend sind.
  5. Keine klaren Grenzen. Ein guter RAG-Bot sagt aktiv „Das steht nicht in meiner Wissensbasis" — statt zu improvisieren. Das muss im System-Prompt stehen.

Häufige Fragen

Wie groß darf unsere Wissensbasis sein?

Für einen Bot auf Basis Ihrer Unternehmensdokumente ist 100–2.000 Dokumente ein gesunder Rahmen. Darüber wird Qualität der Retrieval-Ergebnisse kritisch, und Sie brauchen Filter (Metadaten, Abteilung, Produktkategorie), um Relevanz zu sichern.

Können wir ChatGPT Enterprise als Basis nutzen?

Ja, wenn Sie mit dem ChatGPT-Enterprise-Modell der Custom GPTs arbeiten möchten. Das ist bequem, aber weniger flexibel als eine eigene Umsetzung. Für datenschutzkritische Fälle ziehen wir Azure OpenAI oder AWS Bedrock vor.

Wie viel schneller ist ein RAG-Bot als Google-Suche in internen Wikis?

Typisch 3–10-fach schneller bei den Mitarbeitern, weil sie die Antwort direkt bekommen und nicht durch fünf Treffer klicken müssen. Der messbare Effekt zeigt sich meist nach 4–6 Wochen Nutzung.

Ist Open-Source-LLM (Llama, Mistral) eine echte Option?

Ja, wenn Sie vollständig EU-Hosting ohne API-Abhängigkeit wollen und den Betriebsaufwand stemmen können. Die Qualität ist mittlerweile sehr nah an den kommerziellen Modellen, aber der operative Overhead (GPU-Hosting, Updates, Skalierung) ist real. Für die meisten KMU ist Managed EU der bessere Kompromiss.

Wie misst man den ROI?

Die zwei häufigsten Messgrößen: Anzahl der durch den Bot beantworteten Support-Anfragen pro Monat (entlastet Ihr Team) und Zeit bis zur Antwort für interne Wissensfragen. Beides lässt sich schon nach 4–6 Wochen quantifizieren.


Fazit

Ein RAG-Chatbot ist kein Allheilmittel — aber in den richtigen Anwendungsfällen (Support, interne Wissensbasis, Produktberatung) eines der wenigen KI-Projekte, die sich für KMU innerhalb weniger Monate messbar rechnen. Der Schlüssel ist nicht die Technologie, sondern die Disziplin bei der Auswahl und Aufbereitung der Quellen.

Wenn Sie überlegen, ob RAG für Sie Sinn ergibt: Wir starten typischerweise mit einem zweistündigen Workshop plus einem 1–2-wöchigen PoC auf Basis Ihrer realen Dokumente. Danach wissen Sie, ob die Lösung Ihre Anforderungen erfüllt, bevor Sie das Gesamtbudget committen.

RAG-Workshop anfragen →

Weiterführende Artikel:


Stand: April 2026. Die genannten Preise sind Richtwerte für den österreichischen Markt, netto exkl. USt. Modell- und API-Kosten ändern sich laufend — für ein konkretes Angebot fragen Sie bitte direkt an.

Teilen:

Klingt nach Ihrem nächsten Projekt?

Lassen Sie uns unverbindlich über Ihre Anforderungen sprechen. Wir beraten Sie ehrlich und erstellen Ihnen ein transparentes Angebot.

Wir verwenden Cookies

Wir verwenden Cookies, um Ihnen die bestmögliche Erfahrung auf unserer Website zu bieten. Mit Ihrer Zustimmung aktivieren wir Google Analytics zur anonymen Nutzungsanalyse.

Mit Klick auf Akzeptieren stimmen Sie der Nutzung zu.
Datenschutzerklärung