Open-Source-KI vs. proprietäre Modelle: Was für regulierte Branchen besser passt

Ein sachlicher Vergleich von Open-Source-KI-Modellen (Llama, Mistral) und proprietären Modellen (GPT, Claude) für den Einsatz in regulierten Branchen. Auditierbarkeit, Souveränität, Kosten und praktische Implikationen.

Die Wahl zwischen Open-Source- und proprietären KI-Modellen ist für regulierte Unternehmen keine rein technische Entscheidung. Sie hat Auswirkungen auf Datensouveränität, Compliance, Kosten und die langfristige strategische Unabhängigkeit. Trotzdem wird die Debatte oft auf “Open Source ist billiger” oder “Proprietäre Modelle sind besser” reduziert. Beide Aussagen sind zu einfach.

Dieser Beitrag bietet einen sachlichen Vergleich der beiden Ansätze, spezifisch für den Einsatz in regulierten Branchen wie Recht, Finanzen und Gesundheitswesen.

Was Open Source bei KI-Modellen bedeutet

Der Begriff “Open Source” wird im KI-Bereich anders verwendet als in der traditionellen Softwareentwicklung. Bei klassischer Software bedeutet Open Source: Der Quellcode ist frei verfügbar, kann eingesehen, modifiziert und weiterverbreitet werden. Bei KI-Modellen ist die Situation komplexer.

Vollständig offene Modelle stellen die Modellgewichte, den Trainings-Code und idealerweise auch die Trainingsdaten zur Verfügung. Das ermöglicht die vollständige Reproduzierbarkeit und Anpassung des Modells. Beispiele sind bestimmte Modelle aus der Llama-Familie von Meta oder Mistral-Modelle.

Teilweise offene Modelle stellen die Modellgewichte zur Verfügung, aber nicht den Trainings-Code oder die Trainingsdaten. Das ermöglicht die Nutzung und das Feintuning des Modells, aber nicht die vollständige Reproduktion des Trainingsprozesses.

Proprietäre Modelle wie GPT von OpenAI oder Claude von Anthropic sind nur über APIs zugänglich. Die Modellgewichte, der Trainings-Code und die Trainingsdaten sind nicht öffentlich. Der Nutzer sendet Daten an die API und erhält Ergebnisse zurück.

Diese Unterscheidung ist für regulierte Branchen relevant, weil sie direkt beeinflusst, wie viel Kontrolle ein Unternehmen über das KI-System hat.

Auditierbarkeit

Regulierte Branchen unterliegen Aufsichtsbehörden, die das Recht haben, eingesetzte Systeme zu prüfen. Für KI-Systeme stellt sich die Frage: Kann das System auditiert werden?

Open-Source-Vorteil. Wenn die Modellgewichte und der Code verfügbar sind, kann ein Auditor das System technisch prüfen. Er kann nachvollziehen, wie das Modell trainiert wurde, welche Daten verwendet wurden und wie es Entscheidungen trifft. Für regulierte Branchen, in denen Transparenz gegenüber Aufsichtsbehörden gefordert ist, ist das ein erheblicher Vorteil.

Proprietäre Einschränkung. Bei proprietären Modellen ist eine technische Auditierung durch externe Stellen nicht möglich. Der Anbieter kann Zertifizierungen vorweisen (SOC 2, ISO 27001), aber die interne Funktionsweise des Modells bleibt eine Blackbox. Für bestimmte regulatorische Anforderungen, insbesondere im Finanzbereich unter FINMA-Aufsicht, kann das problematisch sein.

In der Praxis hängt die Relevanz der Auditierbarkeit von der spezifischen Regulierung ab. Nicht jede Aufsichtsbehörde verlangt einen Zugang zum Modellcode. Aber der Trend geht in Richtung mehr Transparenz, nicht weniger. Der EU AI Act, der auch Schweizer Unternehmen mit EU-Geschäft betrifft, stellt explizite Anforderungen an die Dokumentation und Nachvollziehbarkeit von KI-Systemen.

Datensouveränität

Für Schweizer Unternehmen in regulierten Branchen ist die Frage der Datensouveränität zentral. Wo werden die Daten verarbeitet? Wer hat potenziell Zugriff?

Open-Source-Vorteil. Open-Source-Modelle können auf eigener Infrastruktur betrieben werden. Ein Schweizer Unternehmen kann ein Llama- oder Mistral-Modell auf einem Schweizer Server installieren und betreiben. Keine Daten verlassen die Schweiz. Keine ausländische Jurisdiktion hat Zugriffsmöglichkeiten. Für Anwaltskanzleien, die das Berufsgeheimnis nach BGFA Art. 13 wahren müssen, oder für Finanzdienstleister unter FINMA-Aufsicht ist das der sicherste Weg.

Proprietäre Einschränkung. Proprietäre Modelle erfordern typischerweise, dass Daten an die API des Anbieters gesendet werden. Das bedeutet: Die Daten werden auf der Infrastruktur des Anbieters verarbeitet. Bei US-Anbietern unterliegen sie damit potenziell dem CLOUD Act. Selbst wenn der Anbieter europäische Server nutzt, bleibt das rechtliche Risiko bestehen, solange der Anbieter US-Recht unterliegt.

Es gibt Zwischenformen: Einige proprietäre Anbieter bieten dedizierte Instanzen oder On-Premises-Deployment an. Diese Optionen sind jedoch teuer und nicht immer verfügbar.

Leistungsfähigkeit

Die reine Modellleistung ist ein Bereich, in dem proprietäre Modelle traditionell die Nase vorn hatten. Das ändert sich, aber die Situation ist differenziert.

Proprietärer Vorteil. Die grössten proprietären Modelle (GPT-4, Claude) gehören nach wie vor zu den leistungsfähigsten Sprachmodellen. Sie haben grössere Kontextfenster, bessere Instruktionsbefolgung und liefern in vielen Benchmarks die besten Ergebnisse.

Open-Source-Aufholjagd. Open-Source-Modelle wie Llama 3, Mistral und deren Nachfolger haben den Abstand in den letzten zwei Jahren deutlich verringert. Für viele praktische Anwendungen, insbesondere wenn das Modell mit domänenspezifischen Daten feingetunt wird, liefern Open-Source-Modelle vergleichbare Ergebnisse.

Die Feintuning-Option. Ein entscheidender Vorteil von Open-Source-Modellen ist die Möglichkeit des Feintunings: Das Modell wird mit domänenspezifischen Daten weitertrainiert und auf den spezifischen Anwendungsfall optimiert. Ein allgemeines Modell, das speziell auf Schweizer Recht trainiert wurde, kann in diesem Bereich ein grösseres, allgemeines proprietäres Modell übertreffen.

Für regulierte Branchen ist die Leistung in spezifischen Domänen wichtiger als allgemeine Benchmark-Ergebnisse. Ein Modell, das auf Schweizer Rechtsdaten trainiert wurde, wird bei Schweizer Rechtsrecherche besser abschneiden als ein allgemeines Modell, unabhängig von dessen Gesamtleistung.

Kosten

Die Kostenstruktur unterscheidet sich grundlegend zwischen den beiden Ansätzen.

Proprietäre Modelle werden typischerweise nach Nutzung abgerechnet: pro Token, pro Anfrage oder als monatliches Abonnement. Die Kosten sind vorhersehbar und die Einstiegshürde ist niedrig. Allerdings skalieren die Kosten linear mit der Nutzung. Ein Unternehmen, das tausende Anfragen pro Tag verarbeitet, zahlt erhebliche laufende Gebühren.

Open-Source-Modelle erfordern eine Investition in Infrastruktur: Server mit leistungsfähigen GPUs, Speicher, Netzwerkanbindung. Die Anfangsinvestition ist höher, aber die laufenden Kosten sind deutlich niedriger, da keine Nutzungsgebühren anfallen. Ab einem bestimmten Nutzungsvolumen wird Self-Hosting wirtschaftlicher als die API-Nutzung.

Für kleine Unternehmen oder Teams, die KI gelegentlich nutzen, sind proprietäre APIs oft kosteneffizienter. Für Unternehmen mit hohem Nutzungsvolumen oder besonderen Sicherheitsanforderungen kann Self-Hosting von Open-Source-Modellen die bessere Wahl sein.

Strategische Unabhängigkeit

Ein oft übersehener Aspekt ist die strategische Abhängigkeit, die mit proprietären Modellen einhergeht.

Vendor Lock-in. Wer seine Prozesse auf einem proprietären Modell aufbaut, ist vom Anbieter abhängig. Preiserhöhungen, Änderungen der Nutzungsbedingungen oder die Einstellung eines Modells können erhebliche Auswirkungen haben. Der Wechsel zu einem anderen Anbieter erfordert Anpassungen an Prompts, Workflows und Integrationen.

Geopolitische Risiken. Die grössten proprietären KI-Anbieter sind US-Unternehmen. Geopolitische Veränderungen, Exportrestriktionen oder regulatorische Entwicklungen in den USA können den Zugang zu diesen Diensten beeinflussen. Für Schweizer Unternehmen in regulierten Branchen, die sich auf die langfristige Verfügbarkeit ihrer Werkzeuge verlassen müssen, ist das ein relevantes Risiko.

Open-Source-Resilienz. Open-Source-Modelle können nicht “abgeschaltet” werden. Einmal heruntergeladen und auf eigener Infrastruktur installiert, bleiben sie verfügbar, unabhängig von den Entscheidungen des ursprünglichen Entwicklers. Das bietet eine Resilienz, die proprietäre Modelle nicht bieten können.

Der pragmatische Ansatz

In der Praxis ist die Entscheidung selten binär. Der pragmatischste Ansatz für regulierte Unternehmen kombiniert die Stärken beider Welten.

Sensible Daten auf eigener Infrastruktur. Für die Verarbeitung vertraulicher Mandanten-, Kunden- oder Patientendaten eignen sich Open-Source-Modelle auf Schweizer Infrastruktur. Keine Daten verlassen die Kontrolle des Unternehmens.

Proprietäre Modelle für unkritische Aufgaben. Für allgemeine Aufgaben ohne sensible Daten, interne Zusammenfassungen öffentlicher Dokumente oder Brainstorming, können proprietäre APIs genutzt werden, wenn die Kostenstruktur stimmt.

Plattformen, die beide Ansätze integrieren. Die wirksamste Lösung sind Plattformen, die verschiedene Modelle je nach Anforderung einsetzen. Die Enclava-Plattform von Mont Virtua verfolgt diesen Ansatz: Schweizer Hosting, Kontrolle über die Datenverarbeitung und die Flexibilität, das jeweils beste Modell für den jeweiligen Anwendungsfall einzusetzen.

Empfehlung für regulierte Branchen

Für Unternehmen in regulierten Branchen empfehlen wir folgende Leitlinien:

Prüfen Sie, ob Ihre Aufsichtsbehörde spezifische Anforderungen an die Auditierbarkeit von KI-Systemen stellt. Falls ja, bevorzugen Sie Open-Source-Modelle oder Anbieter, die vollständige Transparenz bieten.

Verarbeiten Sie sensible Daten ausschliesslich auf Infrastruktur, die Schweizer Recht unterliegt. Das spricht für Self-Hosting von Open-Source-Modellen oder für Anbieter mit nachweislich Schweizer Jurisdiktion.

Bewerten Sie die Gesamtkosten, nicht nur die Einstiegskosten. Berücksichtigen Sie Infrastruktur, Personal, Wartung und Skalierung bei Open-Source-Lösungen sowie langfristige Nutzungsgebühren bei proprietären Modellen.

Vermeiden Sie übermässige Abhängigkeit von einem einzelnen Anbieter. Halten Sie die Möglichkeit offen, Modelle zu wechseln, ohne Ihre gesamte Infrastruktur umbauen zu müssen.

Wenn Sie eine Evaluation planen und wissen möchten, welcher Ansatz für Ihr Unternehmen am besten geeignet ist, kontaktieren Sie uns unter [email protected] oder besuchen Sie unsere Kontaktseite.

Zurück zum Blog