Artikel2025-03-1518 Min.

Warum Ihr Unternehmen On-Premise LLMs in 2025 in Betracht ziehen sollte

JPL

José Pedro Lecha

2025-03-15

Die Datenschutzvorschriften in Lateinamerika werden strenger. Wir erklären, wann es sinnvoll ist, Sprachmodelle auf Ihrer eigenen Infrastruktur zu betreiben, wann es Geldverschwendung ist und welchen technischen Stack Sie tatsächlich dafür brauchen.

Die regulatorische Landschaft: warum das nicht mehr optional ist

In den letzten 18 Monaten hat sich die regulatorische Landschaft in Lateinamerika dramatisch verändert. Argentinien trieb die Umsetzung seines Datenschutzgesetzes voran, Brasilien verschärfte die LGPD mit Strafen, die bereits R$50 Millionen an kumulierten Bußgeldern überschritten haben, und Mexiko aktualisierte sein Bundesgesetz zum Datenschutz mit spezifischen Richtlinien für künstliche Intelligenz. Kolumbien und Chile folgen dem gleichen Weg.

Für ein 200-Personen-Unternehmen im Finanz- oder Gesundheitssektor hat das direkte Auswirkungen: Jedes Mal, wenn ein Mitarbeiter Kundendaten in ChatGPT einfügt oder Ihr System sensible Informationen an die API von OpenAI sendet, verstoßen Sie möglicherweise gegen lokale Vorschriften. Das ist keine Paranoia — es ist der aktuelle Rechtsrahmen.

Das Problem ist nicht, dass OpenAI-, Anthropic- oder Google-APIs unsicher sind. Das Problem ist, dass Sie nicht kontrollieren, wo die Daten verarbeitet werden, wer darauf zugreift oder wie sie gespeichert werden. Und für eine Aufsichtsbehörde reicht das aus, um es als unautorisierte internationale Datenübertragung zu betrachten.

Der Trend ist klar: Datensouveränität hat sich von einem Compliance-Thema zu einer operativen Anforderung entwickelt. Unternehmen, die sich nicht anpassen, werden Verträge verlieren, Bußgelder erhalten oder einfach von öffentlichen und privaten Ausschreibungen ausgeschlossen.

Referenzen

Lei Geral de Proteção de Dados Pessoais (LGPD) — Volltext

Regierung von Brasilien

Gesetz 25.326 — Schutz personenbezogener Daten (Argentinien)

Argentina.gob.ar

Nationale Datenschutzbehörde — Brasilien (ANPD)

ANPD Brasilien

Was 'On-Premise' 2025 bedeutet (es ist nicht das, was Sie denken)

Wenn wir 'On-Premise' sagen, stellen sich viele CTOs einen Server-Rack im Bürokeller vor, wo ein Systemadministrator um 3 Uhr morgens Festplatten tauscht. Dieses Bild ist veraltet.

On-Premise hat 2025 drei reale Modalitäten. Erstens: Private Cloud mit Isolation — eine dedizierte VPC auf AWS, GCP oder Azure mit Netzwerkrichtlinien, die garantieren, dass Daten die Region nie verlassen. Zweitens: Bare Metal in einem lokalen Rechenzentrum — dedizierte Server in einem Rechenzentrum wie Equinix, EdgeUno oder DataCenter Paraguay, wo Sie physische Kontrolle über die Hardware haben. Drittens: Ihre eigene Hardware — GPUs in Ihrer bestehenden Infrastruktur, ideal für große Unternehmen, die bereits Rechenkapazität haben.

Was in allen drei Fällen zählt, ist dasselbe: Daten verlassen nie einen Perimeter, den Sie nicht kontrollieren. Sie entscheiden, welches Modell läuft, welche Logs aufbewahrt werden, wer Zugriff hat und wie lange Informationen gespeichert werden. Das ist echte Datensouveränität, kein Marketing.

Ein Detail, das viele übersehen: On-Premise bedeutet nicht abgekoppelt. Sie können ein On-Premise-Deployment haben, das sich periodisch mit neuen Modellen aktualisiert, Nutzungsmetriken (ohne sensible Daten) an ein zentrales Dashboard meldet und sich automatisch basierend auf der Nachfrage skaliert. Die Benutzererfahrung kann identisch mit der Nutzung einer externen API sein.

Die Open-Source-Modelle, die bereits mit GPT-4 konkurrieren

Das Open-Source-Modell-Ökosystem ist 2024-2025 explodiert. Wir reden nicht mehr von mittelmäßigen Modellen, die generische Antworten geben — es gibt Optionen, die auf spezifischen Aufgaben ernsthaft mit geschlossenen Modellen konkurrieren.

Metas Llama 3.1 405B ist das beeindruckendste in Bezug auf allgemeine Leistungsfähigkeit. Für die meisten Unternehmensaufgaben — Dokumentenzusammenfassung, Klassifikation, Entitätsextraktion, Berichtsgenerierung — liegt es auf Augenhöhe mit GPT-4. Die 70B-Version ist ausgezeichnet für die Produktion auf zugänglicherer Hardware, und die 8B-Version ist überraschend leistungsfähig für einfache Aufgaben mit minimaler Latenz.

Mistral Large und Mixtral 8x22B sind europäische Optionen mit ausgezeichneter Leistung auf Spanisch und Portugiesisch, was für den LATAM-Markt entscheidend ist. Alibabas Qwen 2.5 überraschte alle mit seiner mehrsprachigen Fähigkeit und Effizienz auf begrenzter Hardware. Und DeepSeek V3 zeigte, dass Frontier-Level-Leistung mit effizienteren Architekturen erreicht werden kann.

Der Kernpunkt ist, dass für 80% der Unternehmensanwendungen — die kein komplexes Frontier-Reasoning erfordern — diese Modelle mehr als ausreichend sind. Und Sie können sie auf Ihrer eigenen Infrastruktur betreiben, ohne pro Token zu bezahlen.

80% der Unternehmensanwendungen erfordern keine Frontier-Modelle. Open-Source-Modelle wie Llama 3.1 und Mistral konkurrieren bereits mit GPT-4 bei Aufgaben wie Zusammenfassung, Klassifikation und Entitätsextraktion.

Referenzen

Llama 3.1 — Model Card und Übersicht

Meta AI

Mistral Large — Dokumentation

Mistral AI

Qwen 2.5 — Modellsammlung

HuggingFace

DeepSeek-V3 Technischer Bericht

arXiv

Echter Kostenvergleich: API vs. On-Premise

Rechnen wir mit einem echten Fall. Ein Finanzdienstleistungsunternehmen mit 150 Mitarbeitern, das LLMs nutzt, um Rechtsdokumente zu analysieren, Compliance-Berichte zu generieren und den Kundenservice zu unterstützen.

Mit externen APIs (GPT-4o): Sie verarbeiten ungefähr 2 Millionen Input-Tokens und 500K Output-Tokens pro Tag. Zu den aktuellen OpenAI-Preisen sind das etwa USD 25/Tag für Input und USD 7,50 für Output. Ungefähr USD 975/Monat. Klingt günstig, oder? Aber addieren Sie: USD 200/Monat für Orchestrierungs-Tools, USD 150 für externes Logging und Monitoring, und die versteckten Kosten variabler Latenz, die die Benutzererfahrung beeinträchtigt. Echte Gesamtkosten: ~USD 1.400/Monat.

Mit On-Premise (Llama 3.1 70B auf 2x NVIDIA A100): GPU-Leasing kostet ungefähr USD 3.500/Monat. Dazu USD 500 für unterstützende Infrastruktur (Netzwerk, Speicher, Strom) und USD 300 für Wartung. Gesamt: ~USD 4.300/Monat. Aber diese Kosten sind fix — es spielt keine Rolle, ob Sie 2M Tokens oder 20M verarbeiten.

Der Break-Even-Punkt liegt bei etwa 6-8 Millionen täglichen Tokens. Wenn Ihr Unternehmen die KI-Nutzung skalieren wird (und das tun sie alle), wird On-Premise innerhalb von 6-12 Monaten günstiger. Außerdem eliminieren Sie die Abhängigkeit von Preisen, die sich ohne Vorwarnung ändern — OpenAI hat bereits mehrfach Preise erhöht und gesenkt.

Es gibt eine dritte Kostenkomponente, die niemand in die Tabelle einträgt: die Kosten eines Datenvorfalls. Ein Verstoß bei über eine externe API verarbeiteten Kundendaten kann Millionen an Bußgeldern und Reputationsschäden kosten. On-Premise reduziert dieses Risiko drastisch.

Der Break-Even zwischen API und On-Premise liegt bei 6-8 Millionen täglichen Tokens. Wenn Ihr Unternehmen die KI-Nutzung skalieren wird, wird On-Premise innerhalb von 6-12 Monaten günstiger.

Kostenvergleich: Externe API vs. On-Premise

Externe API (GPT-4o)

~USD 1.400/Monat — variable Kosten pro Token, variable Latenz, Abhängigkeit von Anbieterpreisen

On-Premise (Llama 3.1 70B)

~USD 4.300/Monat — Fixkosten unabhängig vom Volumen, keine Token-Limits, volle Kontrolle

Break-Even

6-8M Tokens/Tag — ab diesem Volumen ist On-Premise wirtschaftlicher

Versteckte Kosten

Datenvorfall mit externer API: Millionen an Bußgeldern + Reputationsschaden

Branchenanwendungen: wo On-Premise unverzichtbar ist

Fintech und Bankwesen: Banken und Fintechs in der Region nutzen bereits LLMs für Kreditrisikoanalyse, Echtzeit-Betrugserkennung und automatisierte regulatorische Berichterstattung. Eine mittelgroße Bank in Argentinien, die Llama 3 On-Premise für die Analyse von Kreditanträgen implementiert hat, reduzierte die Bewertungszeit von 48 Stunden auf 15 Minuten und verarbeitete Daten von BCRA, Veraz und internen Dokumenten, ohne dass etwas ihr Netzwerk verließ. Die Aufsichtsbehörde genehmigte es gerade deshalb, weil die Daten nie den Perimeter verließen.

Gesundheitswesen: Krankenhäuser und Krankenversicherungen verarbeiten Patientenakten, Laborergebnisse und medizinische Bilder mit äußerst sensiblen Daten. Ein Kliniknetzwerk in Uruguay implementierte Mistral zur Generierung von Zusammenfassungen medizinischer Akten und Warnungen bei Medikamentenwechselwirkungen. Alles läuft auf einem dedizierten Cluster in ihrem Rechenzentrum und erfüllt die lokalen Gesundheitsdatenschutzgesetze.

Rechtswesen: Anwaltskanzleien und Rechtsabteilungen von Unternehmen bearbeiten Verträge, Rechtsstreitigkeiten und vertrauliche Dokumentation. Eine große Anwaltskanzlei in Buenos Aires nutzt Llama 3 zur Vertragsprüfung und Erkennung problematischer Klauseln. Sie verarbeiten über 500 Verträge pro Monat, ohne dass ein einziges Byte ihre Infrastruktur verlässt.

Energie und Bergbau: Unternehmen mit Betrieb an abgelegenen Standorten, wo die Konnektivität instabil ist. On-Premise garantiert, dass Modelle weiterlaufen, auch wenn die Internetverbindung ausfällt.

Der technische Stack: was Sie tatsächlich brauchen

Lassen Sie uns konkret über den Stack sprechen. Für ein Produktions-Deployment von Llama 3.1 70B benötigen Sie mindestens 2x NVIDIA A100 80GB oder gleichwertig (H100s sind besser, aber teurer und in der Region schwerer zu bekommen). Für das 8B-Modell reicht eine einzelne A10G oder sogar eine RTX 4090.

Auf der Inferenz-Ebene nutzen wir vLLM als Inferenz-Server — er ist der De-facto-Standard für das Serving von LLMs in der Produktion. Er unterstützt Continuous Batching, PagedAttention für effiziente Speichernutzung und ist kompatibel mit der OpenAI-API, was die Migration erleichtert. Als Alternative ist HuggingFaces TGI ebenfalls solide.

Für die Orchestrierung LangChain oder LlamaIndex, wenn Sie RAG (Retrieval-Augmented Generation) benötigen, was der häufigste Unternehmensanwendungsfall ist. Der Vector Store kann Qdrant, Weaviate oder pgvector sein, wenn Sie bereits PostgreSQL nutzen.

Monitoring mit Prometheus + Grafana für Inferenz-Metriken (Latenz, Durchsatz, GPU-Auslastung, Queue-Tiefe). LangSmith oder Langfuse für LLM-Chain-Observability — Traces, Qualitätsbewertung, Halluzinationserkennung.

All dies läuft auf Kubernetes (EKS, GKE oder k3s On-Premise) mit Helm Charts, die wir pflegen und versionieren. Das interne Team erhält vollständige Dokumentation und Schulung zum Betrieb des Clusters.

Technischer Stack für On-Premise LLMs

Hardware

2x NVIDIA A100 80GB (oder H100) — dedizierte GPUs für Inferenz

Inferenz

vLLM — Server mit Continuous Batching, PagedAttention, OpenAI-kompatibler API

Orchestrierung + RAG

LangChain / LlamaIndex + Vector Store (Qdrant, Weaviate oder pgvector)

Observability

Prometheus + Grafana (GPU-Metriken) + LangSmith/Langfuse (LLM-Traces)

Plattform

Kubernetes (EKS, GKE oder k3s) mit versionierten Helm Charts

Wann On-Premise KEINEN Sinn ergibt

Ich sage es direkt: Für viele Unternehmen ist On-Premise eine schlechte Idee. Und es gehört zu unserer Aufgabe, Ihnen das zu sagen, wenn es zutrifft.

Wenn Ihr Unternehmen weniger als 50 Mitarbeiter hat und nicht in einer regulierten Branche ist, sind externe APIs fast immer die beste Option. Die Infrastrukturkosten, der Wartungsaufwand und die Iterationsgeschwindigkeit, die Sie verlieren, rechtfertigen es nicht. Nutzen Sie GPT-4o oder Claude über ihre APIs, implementieren Sie grundlegende DLP-Kontrollen (Data Loss Prevention), und Sie sind bestens aufgestellt.

Wenn Ihr Anwendungsfall experimentell ist — Sie testen, ob KI einen Prozess verbessern kann, aber noch kein echtes Volumen haben — beginnen Sie mit APIs. Validieren Sie den Anwendungsfall, messen Sie den ROI, und wenn Sie sicher sind, dass es funktioniert und das Volumen es rechtfertigt, migrieren Sie zu On-Premise.

Wenn Sie kein Infrastrukturteam haben (auch nur eine Person), das das Deployment überwachen kann, gehen Sie nicht ohne Supportvertrag auf On-Premise. Modelle brauchen Updates, GPUs brauchen Monitoring und Pipelines brauchen Wartung.

Es ergibt auch keinen Sinn, wenn Ihr Anwendungsfall ständig das neueste Frontier-Modell erfordert. Wenn Sie immer die neueste Version von GPT oder Claude brauchen, sobald sie erscheint, wird On-Premise Sie immer einen Schritt zurückliegen lassen. Aber seien wir ehrlich: Die meisten Unternehmensanwendungen brauchen kein Frontier.

Der hybride Weg: das Beste aus beiden Welten

Die Realität ist, dass die meisten unserer Kunden am Ende eine hybride Architektur haben. Es ist nicht alles On-Premise oder alles API — es ist eine intelligente Kombination basierend auf Datentyp und Anwendungsfall.

Das Muster, das wir am häufigsten implementieren: Sensible Daten (Kundeninformationen, Finanzdaten, Patientenakten) werden ausschließlich mit dem On-Premise-Modell verarbeitet. Nicht-sensible Daten (Marketinginhalte, öffentliche Trendanalysen, generische interne Dokumentengenerierung) gehen an externe APIs, wo die Latenz niedriger und die Modelle leistungsfähiger sind.

Das erfordert einen intelligenten Router, der Anfragen nach Sensibilität klassifiziert und an das entsprechende Modell weiterleitet. Es klingt komplex, aber mit einer guten Gateway-Architektur lässt es sich in einer Woche Implementierung lösen.

Der Vorteil ist klar: Sie erfüllen Vorschriften dort, wo es wichtig ist, nutzen die Kraft geschlossener Modelle dort, wo Sie können, und optimieren die Kosten. Einer unserer Kunden im Versicherungssektor reduzierte seine gesamten KI-Ausgaben um 40% mit diesem Ansatz und verbesserte gleichzeitig seine Compliance-Position.

Die hybride Architektur ist das am häufigsten adoptierte Muster: Sensible Daten gehen an das On-Premise-Modell, nicht-sensible Daten an externe APIs. Ein intelligenter Router klassifiziert und leitet jede Anfrage weiter.

Hybride Architektur: intelligentes Request-Routing

Eingehende Anfrage

Der Benutzer oder das System generiert eine Abfrage mit Daten

Sensibilitätsklassifikator

Gateway, das den Inhalt analysiert und bestimmt, ob er regulierte Daten enthält

Sensibler Pfad → On-Premise LLM

Finanz-, klinische oder personenbezogene Daten werden lokal verarbeitet (Llama 3.1)

Nicht-sensibler Pfad → Externe API

Marketinginhalte, öffentliche Analysen gehen an GPT-4o oder Claude

Einheitliche Antwort

Das Ergebnis wird dem Benutzer geliefert, unabhängig davon, welches Modell es generiert hat

So starten Sie: der Prozess, dem wir bei Orionis folgen

Wenn Sie On-Premise evaluieren, ist dies der Prozess, den wir bei jedem Kunden verfolgen. Es ist kein Verkaufsgespräch — es ist die Methodik, die wir tatsächlich anwenden.

Wochen 1-2: Diagnose. Wir auditieren Ihre aktuellen Datenflüsse, identifizieren, welche Informationen reguliert sind, kartieren bestehende und potenzielle KI-Anwendungsfälle und bewerten Ihre Infrastruktur. Wir liefern ein Machbarkeitsdokument mit klaren Empfehlungen.

Wochen 3-4: Proof of Concept. Wir richten ein Deployment in einer Staging-Umgebung mit anonymisierten Daten ein. Wir testen das ausgewählte Modell mit Ihren echten Anwendungsfällen und messen Leistung, Latenz und Antwortqualität im Vergleich zu der API, die Sie derzeit verwenden.

Wochen 5-8: Produktions-Deployment. Wir konfigurieren den vollständigen Stack — Inferenz, RAG falls zutreffend, Monitoring, Alarme, Backups und Sicherheitsrichtlinien. Wir integrieren mit Ihren bestehenden Systemen über eine OpenAI-kompatible API.

Wochen 9-12: Übergabe und Stabilisierung. Wir schulen Ihr Team, dokumentieren alles und bieten aktiven Support, während das System in der Produktion stabilisiert wird.

Nach dem Deployment bieten wir einen kontinuierlichen Supportvertrag an, der Modell-Updates, proaktives Monitoring und Beratung für neue Anwendungsfälle umfasst. Aber wichtig ist: Wenn Sie sich entscheiden, die Zusammenarbeit zu beenden, haben Sie alles, was Sie brauchen, um autonom zu arbeiten. Der Code, die Konfiguration und das Wissen gehören Ihnen.

On-Premise-Implementierungsprozess

Phase 1: Diagnose (Wochen 1-2)

Datenfluss-Audit, Infrastrukturbewertung, Machbarkeitsdokument

Phase 2: Proof of Concept (Wochen 3-4)

Staging-Deployment, Tests mit anonymisierten Daten, Benchmarks vs. aktuelle API

Phase 3: Produktion (Wochen 5-8)

Vollständiger Stack: Inferenz, RAG, Monitoring, Alarme, Systemintegration

Phase 4: Übergabe (Wochen 9-12)

Teamschulung, Dokumentation, aktiver Support, operative Autonomie

Die Frage, die Sie sich stellen sollten

Es geht nicht darum: 'Soll ich auf On-Premise umsteigen?' Die richtige Frage ist: 'Was passiert mit meinen Daten, wenn ich sie an eine externe API sende, und kann ich mit dieser Antwort leben?'

Wenn die Antwort 'Ich bin mir nicht sicher' lautet, müssen Sie nachforschen. Wenn die Antwort 'Dieses Risiko kann ich mir nicht leisten' lautet, brauchen Sie einen Plan. Und wenn die Antwort 'Meine Aufsichtsbehörde wird mich danach fragen' lautet, müssen Sie jetzt handeln.

Open-Source-Modelle haben ein Reifegrad erreicht, der On-Premise für mittelständische Unternehmen realisierbar macht. Die Hardware ist zugänglich. Der technische Stack ist ausgereift. Und die Regulierung wird nur strenger. Unternehmen, die jetzt handeln, werden einen echten Wettbewerbsvorteil haben — nicht nur bei der Compliance, sondern auch bei der Fähigkeit, ihre KI-Modelle anzupassen und zu kontrollieren.

Wenn Sie Ihren spezifischen Fall bewerten möchten, schreiben Sie uns an hallo@orionis.consulting. Wir bieten eine kostenlose Erstbewertung an, bei der wir Ihnen ehrlich sagen, ob On-Premise für Ihr Unternehmen sinnvoll ist oder ob Sie mit externen APIs besser bedient sind. Unser Versprechen ist es, Ihnen die beste Empfehlung zu geben, auch wenn das bedeutet, dass wir nicht zusammenarbeiten.