Was ist reguliertes RAG? Die Technologie hinter vertrauenswürdiger KI für Fachleute

Retrieval-Augmented Generation (RAG) ist die Technologie, die KI für regulierte Branchen vertrauenswürdig macht. So funktioniert es, warum es wichtig ist und was gutes RAG von schlechtem unterscheidet.

Sie haben den Begriff «RAG» wahrscheinlich in Gesprächen über KI gehört. Es ist eines jener Akronyme, die auf Konferenzen herumgeworfen werden, ohne grosse Erklärung, sodass die meisten Fachleute ein vages Gefühl haben, dass es wichtig ist, aber kein klares Verständnis davon, was es tatsächlich bedeutet oder warum sie sich dafür interessieren sollten.

Wenn Sie in einer regulierten Branche arbeiten, ist RAG nicht nur wichtig. Es ist der Unterschied zwischen KI, der Sie vertrauen können, und KI, der Sie nicht vertrauen können.

Das Problem, das RAG löst

Um RAG zu verstehen, müssen Sie die fundamentale Einschränkung grosser Sprachmodelle wie GPT-4, Claude und Gemini verstehen.

Diese Modelle werden auf riesigen Mengen an Textdaten trainiert. Während des Trainings absorbieren sie Muster, Fakten und Zusammenhänge aus diesen Daten. Nach dem Training ist das Modell eingefroren. Es lernt keine neuen Informationen. Es aktualisiert sich nicht, wenn Gesetze ändern. Es weiss nichts über das FINMA-Rundschreiben, das letzten Dienstag veröffentlicht wurde.

Das schafft drei Probleme für die professionelle Nutzung:

Veraltung. Das Wissen des Modells hat einen Stichtag. Alles, was nach dem Training passiert ist, ist für das Modell unsichtbar. Im Recht, wo eine einzelne Änderung die Interpretation eines ganzen Gesetzes verändern kann, ist das Arbeiten mit veralteten Informationen nicht akzeptabel.

Halluzination. Wenn ein Modell keine Informationen über ein Thema hat, sagt es nicht «Ich weiss es nicht.» Es generiert Text, der plausibel klingt, aber möglicherweise vollständig erfunden ist. Es erfindet Fallzitate, kreiert fiktive regulatorische Bestimmungen und präsentiert sie mit derselben Zuversicht wie verifizierte Fakten.

Keine Quellenattribution. Selbst wenn die Antwort des Modells korrekt ist, kann es Ihnen nicht sagen, woher die Information stammt. Es kann nicht auf den spezifischen Gesetzesartikel, den spezifischen Gerichtsentscheid oder die spezifische regulatorische Leitlinie verweisen, die seine Aussage stützt. Für Fachleute, die Quellen zitieren müssen, ist das ein Ausschlusskriterium.

RAG löst alle drei Probleme durch eine täuschend einfache Architektur.

Wie RAG funktioniert

RAG steht für Retrieval-Augmented Generation. Der Name beschreibt den Prozess:

Schritt 1: Retrieval. Wenn ein Nutzer eine Frage stellt, durchsucht das System zuerst eine kuratierte Wissensbasis nach relevanten Informationen. Das ist keine Schlüsselwortsuche. Das System wandelt die Frage in eine mathematische Repräsentation (einen Vektor) um und findet Dokumente, deren Bedeutung ähnlich ist. Es führt auch traditionelle Textsuchen nach genauen Übereinstimmungen durch. Die Ergebnisse werden kombiniert und nach Relevanz gerankt.

Schritt 2: Augmentation. Die abgerufenen Dokumente werden dem Sprachmodell als Kontext bereitgestellt. Dem Modell wird im Wesentlichen gesagt: «Hier sind die relevanten Informationen. Nutze diese, um die Frage zu beantworten.»

Schritt 3: Generation. Das Modell generiert seine Antwort basierend auf dem abgerufenen Kontext, nicht seinen Trainingsdaten. Weil die Antwort in spezifischen Dokumenten verankert ist, kann das Modell seine Quellen zitieren. Weil die Wissensbasis kontinuierlich aktualisiert wird, spiegelt die Antwort aktuelle Informationen wider. Weil das Modell mit echten Dokumenten arbeitet statt mit parametrischem Gedächtnis, wird Halluzination dramatisch reduziert.

Stellen Sie es sich vor als den Unterschied, ob Sie jemanden bitten, aus dem Gedächtnis zu antworten, oder ob Sie ihm die relevanten Unterlagen geben und ihn bitten, anhand der Dokumente zu antworten. Der zweite Ansatz ist zuverlässiger, und Sie können die Antwort überprüfen, indem Sie die Unterlagen prüfen.

Was RAG «reguliert» macht

Standard-RAG-Systeme sind eine erhebliche Verbesserung gegenüber rohen Sprachmodellen. Aber für regulierte Branchen reicht Standard-RAG nicht aus. Reguliertes RAG fügt mehrere kritische Schichten hinzu.

Verifizierte Quelldaten. Die Wissensbasis muss autoritative, verifizierte Informationen aus offiziellen Quellen enthalten. Für Schweizer Recht bedeutet das Bundesgesetzgebung von Fedlex, kantonale Gesetze aus offiziellen kantonalen Datenbanken, Gerichtsentscheide aus offiziellen Gerichtsregistern und regulatorische Publikationen von FINMA, SECO und anderen Behörden. Die Daten können nicht von beliebigen Rechtswebsites gescrapt werden. Sie müssen aus der Quelle stammen, und die Herkunft muss dokumentiert sein.

Strukturierte Daten, nicht nur Text. Eine Rechtswissensbasis ist kein Dokumentenhaufen. Gesetze haben hierarchische Struktur: Bücher, Titel, Kapitel, Artikel, Absätze, Unterabsätze. Gerichtsentscheide haben strukturierte Metadaten: Gericht, Datum, Geschäftsnummer, Parteien, betroffene Rechtsbestimmungen. Regulatorische Rundschreiben haben Versionshistorien, Gültigkeitsdaten und Änderungsvermerke. Reguliertes RAG bewahrt diese Struktur und ermöglicht präzises Retrieval auf Artikelebene statt auf Dokumentebene.

Zitationsgraphen. Rechts- und Regulierungsbestimmungen existieren in einem Netz von Beziehungen. Ein Gesetz verweist auf andere Gesetze. Gerichtsentscheide zitieren Rechtsbestimmungen und andere Entscheide. Regulierungen setzen Richtlinien um. Reguliertes RAG baut und pflegt diese Zitationsgraphen, sodass ein Nutzer bei der Abfrage einer Bestimmung auch die Entscheide sieht, die sie interpretieren, die Regulierungen, die sie umsetzen, und die Änderungen, die sie modifiziert haben.

Mehrsprachige Abstimmung. In der Schweiz existieren Bundesgesetze in drei Amtssprachen (Deutsch, Französisch, Italienisch), wobei alle Versionen gleichermassen autoritativ sind. Ein reguliertes RAG-System muss mehrsprachige Abfragen handhaben, sprachübergreifend abrufen und Ergebnisse in der bevorzugten Sprache des Nutzers präsentieren, während die sprachübergreifende Abstimmung erhalten bleibt.

Änderungserkennung. Gesetze und Regulierungen ändern sich. Ein reguliertes RAG-System muss diese Änderungen erkennen, die Wissensbasis aktualisieren und optional Nutzer alarmieren, die mit betroffenen Bestimmungen arbeiten. Ein System, das monatlich aktualisiert wird in einem Umfeld, in dem sich Gesetze wöchentlich ändern können, erfüllt den Standard nicht.

Audit-Trail. Jedes Retrieval, jede Generation, jede verwendete Quelle muss protokolliert werden. Wenn ein Fachmann Informationen aus dem System zitiert, muss er die Beweiskette nachweisen können: Was wurde gefragt, was wurde abgerufen, welche Quellen haben die Antwort informiert.

Der technische Stack

Für die Technisch-Interessierten: Hier ist, was unter der Haube eines modernen regulierten RAG-Systems steckt.

Vektordatenbank. Dokumente werden mit Embedding-Modellen in hochdimensionale Vektoren (numerische Repräsentationen, die Bedeutung erfassen) konvertiert. Diese Vektoren werden in einer spezialisierten Datenbank (wie pgvector, Pinecone oder Weaviate) gespeichert, die Ähnlichkeitssuche unterstützt. Wenn eine Abfrage eingeht, findet das System die Dokumente, deren Vektorrepräsentationen dem Vektor der Abfrage am ähnlichsten sind.

BM25-Index. Vektorsuche erfasst semantische Ähnlichkeit (Bedeutung), aber manchmal braucht man exakte Übereinstimmungen. BM25 ist ein bewährter Textsuchalgorithmus, der sich bei der Suche nach spezifischen Begriffen, Geschäftsnummern, Artikelverweisen und Fachterminologie auszeichnet. Ein gutes RAG-System führt Vektor- und BM25-Suchen parallel aus.

Reciprocal Rank Fusion (RRF). Die Ergebnisse von Vektorsuche und BM25 werden mit einem Ranking-Algorithmus kombiniert, der das Beste beider Ansätze nutzt. Dokumente, die in beiden Suchen hoch ranken, werden priorisiert.

Cross-Encoder-Reranking. Das initiale Retrieval wirft ein breites Netz. Ein Cross-Encoder-Modell rerankt dann die Ergebnisse, indem es jedes Dokument-Abfrage-Paar im Detail betrachtet und die relevantesten Ergebnisse nach oben schiebt.

Kontextuelles Embedding. Eine von Anthropic pionierte Technik. Bevor ein Dokumentfragment eingebettet wird, generiert das System mit einem Sprachmodell eine kurze kontextuelle Beschreibung: zu welchem Dokument dieses Fragment gehört, wo es in der Dokumentstruktur steht und worum es geht. Dieser Kontext wird dem Fragment vor dem Embedding vorangestellt, was die Retrieval-Genauigkeit dramatisch verbessert.

Mehrsprachige Embeddings. Modelle wie BGE-M3 produzieren Embeddings, die sprachübergreifend funktionieren. Eine deutschsprachige Abfrage kann französischsprachige Dokumente abrufen, wenn die Bedeutung übereinstimmt. Das ist für Schweizer Rechtsarbeit essentiell.

Zusammen schaffen diese Komponenten eine Retrieval-Pipeline, die weit ausgefeilter ist als eine Google-Suche. Sie versteht Bedeutung, respektiert Struktur, handhabt mehrere Sprachen und produziert gerankte Ergebnisse mit vollständiger Quellenattribution.

Warum das für Ihre Praxis wichtig ist

Die praktische Auswirkung von reguliertem RAG ist nicht abstrakt. Betrachten Sie einige Szenarien:

Ein Unternehmensanwalt prüft eine grenzüberschreitende Transaktion. Er muss Bestimmungen über Schweizer Gesellschaftsrecht, EU-Fusionsregulierung und bilaterale Vertragspflichten verifizieren. Ein reguliertes RAG-System ruft die spezifischen Bestimmungen aus allen drei Bereichen ab, zeigt die Zitationsbeziehungen zwischen ihnen und hebt jüngste Änderungen hervor. Was einen halben Tag manueller Recherche dauern würde, dauert fünfzehn Minuten.

Ein Compliance-Beauftragter beurteilt ein neues FINMA-Rundschreiben. Er muss jede interne Richtlinie identifizieren, die von der Änderung betroffen ist. Das RAG-System bildet die Bestimmungen des Rundschreibens gegen das Richtlinienwerk der Institution ab, produziert eine Gap-Analyse und generiert einen Erstentwurf der erforderlichen Aktualisierungen. Der Beauftragte prüft, verfeinert und genehmigt. Gesamtzeit: zwei Stunden statt zwei Wochen.

Ein Steuerberater evaluiert eine Umstrukturierung. Die Umstrukturierung berührt Unternehmenssteuer, Mehrwertsteuer, Stempelabgaben und potenziell Quellensteuerpflichten über drei Kantone. Das RAG-System ruft relevante Bestimmungen aus allen anwendbaren Steuerregimen ab, flaggt jüngste Entscheide, die die Analyse betreffen, und präsentiert einen strukturierten Überblick. Der Berater konzentriert sich auf Strategie statt Recherche.

In jedem Fall erledigt das RAG-System die Retrieval- und Synthesearbeit. Der Fachmann liefert das Urteilsvermögen. Die Kombination ist leistungsfähiger als jedes für sich allein.

Das richtige RAG-System wählen

Nicht alle RAG-Systeme sind gleichwertig. Wenn Sie KI-Tools für regulierte Arbeit evaluieren, sind hier die Fragen, die Sie stellen sollten:

  1. Woher stammen die Quelldaten? Wenn der Anbieter Ihnen nicht genau sagen kann, welche autoritativen Quellen seine Wissensbasis speisen, ist das ein Problem.
  2. Wie oft werden die Daten aktualisiert? Monatlich reicht für Rechtsarbeit nicht. Wöchentlich ist das Minimum. Täglich oder in Echtzeit ist der anzustrebende Standard.
  3. Können Sie die Quellen verifizieren? Jeder Output sollte anklickbare Zitate zum Originaldokument enthalten. Kein Zitat, kein Vertrauen.
  4. Wo ist die Infrastruktur gehostet? Für Schweizer regulierte Branchen ist Schweizer Hosting nicht optional.
  5. Gibt es einen Audit-Trail? Können Sie die Kette von Abfrage über Retrieval zum Output rekonstruieren?
  6. Handhabt es mehrsprachige Abfragen? In der Schweiz ist das eine funktionale Anforderung, keine nette Ergänzung.

Enclava, gebaut von Mont Virtua, ist um diese Prinzipien herum konzipiert. Verifizierte Schweizer Rechts- und Regulierungsdaten, kontinuierlich aktualisiert, mehrsprachig, in der Schweiz gehostet, mit vollständiger Quellenattribution bei jedem Output. Wenn Sie sehen wollen, wie reguliertes RAG in der Praxis aussieht, besuchen Sie enclava.ch.

Zurück zum Blog

Verwandte Artikel