Neuigkeiten2025-03-0112 Min.

Orionis startet On-Premise-LLM-Service für regulierte Unternehmen

Orionis

2025-03-01

Unternehmen mit sensiblen Daten in Argentinien, Uruguay und LATAM können jetzt Sprachmodelle auf ihrer eigenen Infrastruktur betreiben, mit vollständigem Support, ohne Abhängigkeit von externen APIs und in Übereinstimmung mit lokalen Datenschutzvorschriften.

Das Problem, das wir lösen

Seit wir mit Unternehmen im Finanz-, Gesundheits- und Rechtssektor arbeiten, kam in jedem Gespräch dieselbe Frage auf: 'Wie können wir LLMs nutzen, ohne die Daten unserer Kunden an Drittanbieterserver zu senden?' Die Antwort war bisher kompliziert — man musste ein internes ML-Team zusammenstellen, Modelle recherchieren, Infrastruktur konfigurieren und hoffen, dass alles in der Produktion funktioniert.

Heute starten wir einen Service, der diese Komplexität beseitigt. Wir deployen Open-Source-Sprachmodelle direkt auf der Kundeninfrastruktur — ob Private Cloud, lokales Rechenzentrum oder eigene Hardware — mit einem vollständigen Produktions-Stack, der vom ersten Tag an einsatzbereit ist.

Dies ist kein SaaS-Produkt mit einem hübschen Wrapper. Es ist ein echtes Deployment, auf Ihrer Infrastruktur, mit Ihrer vollständigen Kontrolle über die Daten, die Modelle und den Zugriff. Wenn wir das Projekt abschließen, gehören der gesamte Code, die Konfiguration und die Dokumentation Ihnen.

Was der Service genau beinhaltet

Der Service hat vier Hauptkomponenten, die alles abdecken, was man braucht, um von null auf Produktion zu kommen.

Komponente 1 — Diagnose und Design (2 Wochen): Wir auditieren Ihre Datenflüsse, identifizieren, welche Informationen reguliert sind, bewerten Ihre bestehende Infrastruktur und entwerfen die Zielarchitektur. Wir liefern ein Architekturdokument mit Diagrammen, Hardware-Spezifikationen, operativen Kostenschätzungen und einem Woche-für-Woche-Implementierungsplan.

Komponente 2 — Deployment und Konfiguration (3-4 Wochen): Wir installieren und konfigurieren den vollständigen Stack. Dazu gehören der Inferenz-Server (vLLM oder TGI), das ausgewählte Modell (Llama 3.1, Mistral Large, Qwen 2.5 oder ein anderes basierend auf dem Anwendungsfall), die RAG-Pipeline falls zutreffend (mit Qdrant oder pgvector), das OpenAI-kompatible API-Gateway und der Monitoring-Stack (Prometheus, Grafana, Langfuse).

Komponente 3 — Integration und Fine-Tuning (2-3 Wochen): Wir verbinden das Deployment mit Ihren bestehenden Systemen über API, konfigurieren Prompts und Workflows für Ihre spezifischen Anwendungsfälle und führen bei Bedarf Fine-Tuning des Modells mit Ihren Daten durch (immer innerhalb Ihrer Infrastruktur).

Komponente 4 — Übergabe und Support (2 Wochen + laufender Vertrag): Wir schulen Ihr IT-Team im Betrieb und der Wartung des Systems, liefern vollständige Betriebsdokumentation und beginnen den Post-Deployment-Support-Zeitraum, in dem wir proaktiv monitoren und Vorfälle lösen.

Die 4 Komponenten des On-Premise-LLM-Service

Diagnose und Design (2 Wochen)

Daten-Audit, Infrastrukturbewertung, Zielarchitektur, Implementierungsplan

Deployment und Konfiguration (3-4 Wochen)

vLLM/TGI, ausgewähltes Modell, RAG-Pipeline, API-Gateway, Monitoring-Stack

Integration und Fine-Tuning (2-3 Wochen)

Anbindung an bestehende Systeme, Prompt- und Workflow-Konfiguration, Fine-Tuning falls zutreffend

Übergabe und Support (2 Wo. + laufend)

Praxisschulung, Betriebsdokumentation, proaktives Monitoring, 4-Stunden-SLA

Zielbranchen und Anwendungsfälle

Wir haben den Service mit vier Hauptbranchen im Sinn entworfen, aber die Architektur ist agnostisch — sie gilt für jedes Unternehmen mit Anforderungen an die Datensouveränität.

Fintech und Bankwesen: automatisierte Kreditantragsanalyse, Betrugserkennung mit internen Daten, regulatorische Berichtsgenerierung (BCRA, BCU, CMF), interne Assistenten für Compliance-Beauftragte und KYC/AML-Dokumentenverarbeitung ohne Offenlegung von Kundendaten.

Gesundheitswesen: automatisierte Zusammenfassungen von Patientenakten, Warnungen bei Medikamentenwechselwirkungen, Diagnosekodierungs-Assistenten (ICD-10), Laborergebnis-Analyse und strukturierte Generierung medizinischer Berichte. Alles in Übereinstimmung mit lokalen Gesundheitsdatenschutzvorschriften.

Rechtswesen: automatisierte Vertragsprüfung und Erkennung problematischer Klauseln, semantische Suche in interner Rechtsprechung, Erstellung von Entwürfen juristischer Dokumente und Analyse von Prozessrisiken. Anwaltskanzleien bearbeiten äußerst vertrauliche Informationen, die ihren Perimeter nicht verlassen dürfen.

Versicherung: automatisierte Schadenbearbeitung, Policenanalyse, Betrugserkennung bei Schadensfällen und Berichtsgenerierung für Rückversicherer. Das Volumen der Dokumentation in der Versicherung macht den operativen Impact von KI enorm.

Preise und Zusammenarbeitsmodell

Wir sind transparent bei den Kosten, weil wir glauben, dass Preisüberraschungen Vertrauen zerstören.

Der Implementierungsservice hat einen Festpreis, der je nach Deployment-Komplexität variiert. Um Ihnen eine indikative Spanne zu geben: Ein Standard-Deployment (ein Modell, ein primärer Anwendungsfall, Private-Cloud-Infrastruktur) beginnt bei USD 25.000-35.000. Ein komplexes Deployment (mehrere Modelle, Fine-Tuning, Integration mit mehreren Legacy-Systemen, reine On-Premise-Infrastruktur) kann USD 60.000-80.000 erreichen.

Dies beinhaltet die gesamte Diagnose-, Deployment-, Integrations-, Fine-Tuning- (falls zutreffend) und Wissenstransfer-Arbeit. Es gibt keine versteckten Kosten oder Überraschungen.

Der kontinuierliche Supportvertrag (optional, aber empfohlen) hat monatliche Kosten, die beinhalten: proaktives 24/7-Monitoring, Modell-Updates (wir evaluieren neue Releases und deployen sie, wenn sie die Leistung verbessern), technischer Support mit 4-Stunden-SLA für kritische Vorfälle und 8 monatliche Beratungsstunden für neue Anwendungsfälle oder Verbesserungen. Die Supportkosten variieren je nach Deployment-Größe, liegen aber als Referenz im Bereich von USD 3.000-6.000/Monat.

Wichtig: Infrastrukturkosten (GPUs, Speicher, Netzwerk) trägt der Kunde. Wir beraten Sie bei der Auswahl und helfen bei der Verhandlung mit Anbietern, aber die Infrastruktur gehört Ihnen.

Volle Preistransparenz: Standard-Implementierung ab USD 25.000-35.000, komplex bis USD 60.000-80.000. Laufender Support USD 3.000-6.000/Monat. Keine versteckten Kosten oder Überraschungen.

Der Onboarding-Prozess Schritt für Schritt

Woche 0 — Erstbewertung (kostenlos): Wir treffen uns per Videoanruf, verstehen Ihren Fall und sagen Ihnen ehrlich, ob der Service für Ihr Unternehmen sinnvoll ist. Wenn nicht, sagen wir es Ihnen und empfehlen Alternativen. Diese Bewertung ist kostenlos und unverbindlich.

Wochen 1-2 — Diagnose: Unser technisches Team auditiert Ihre Infrastruktur, Datenflüsse und regulatorischen Anforderungen. Gemeinsam definieren wir den Projektumfang, das zu verwendende Modell und die Zielarchitektur. Wir unterzeichnen den Vertrag mit festgelegtem Umfang, Zeitplan und Preis.

Wochen 3-6 — Implementierung: Wir deployen den Stack auf Ihrer Infrastruktur. Wir führen Lasttests, Sicherheitstests und Integrationstests durch. Wir führen einen Pilot mit echten Daten (oder anonymisierten Daten, je nach Ihrer Präferenz) durch, um die Antwortqualität und Leistung zu validieren.

Wochen 7-8 — Go-Live und Übergabe: Wir gehen mit intensivem Monitoring in Produktion. Wir schulen Ihr Team mit Praxissitzungen (keine PowerPoints — offene Terminals und echte Praxis). Wir liefern Runbooks für die häufigsten Szenarien: wie man den Service neustartet, wie man ein Modell aktualisiert, wie man einen neuen Anwendungsfall hinzufügt, was zu tun ist, wenn eine GPU ausfällt.

Wochen 9-12 — Stabilisierung: Wir monitoren weiterhin aktiv, passen Konfigurationen basierend auf dem realen Produktionsverhalten an und lösen alle Vorfälle. Am Ende dieses Zeitraums sollte Ihr Team das System autonom betreiben können.

Wichtiges Detail: Während des gesamten Prozesses arbeiten wir im Tandem mit Ihrem Team. Wir machen nichts allein in einem geschlossenen Raum. Der Wissenstransfer beginnt am ersten Tag, nicht am Ende.

Fallstudie: Kredit-Fintech in Buenos Aires

Um zu veranschaulichen, wie das in der Praxis funktioniert, teilen wir einen aktuellen Fall (mit Kundenautorisierung, anonymisierte Daten).

Ein Fintech aus Buenos Aires mit 130 Mitarbeitern verarbeitet über 2.000 Kreditanträge pro Monat. Jeder Antrag erfordert die Analyse von Dokumenten (Gehaltsabrechnungen, Kontoauszüge, Veraz-Kreditberichte), den Abgleich von Daten mit externen Quellen und die Erstellung eines Risikoberichts für den Kreditausschuss. Der manuelle Prozess dauerte zwischen 45 Minuten und 2 Stunden pro Antrag.

Das regulatorische Problem: Die BCRA verlangt, dass die Finanzdaten der Antragsteller den Perimeter der Bank oder des Fintechs nicht verlassen. Die Nutzung von GPT-4 über API zur Analyse von Gehaltsabrechnungen war rechtlich nicht tragbar.

Was wir implementiert haben: Llama 3.1 70B, betrieben auf einer dedizierten VPC auf AWS (Region São Paulo, die nächstgelegene mit GPU-Verfügbarkeit). RAG-Pipeline mit BCRA-Vorschriften und den internen Richtlinien des Fintechs als Wissensbasis. Direkte Integration mit ihrem Kernsystem über API.

Ergebnisse nach 3 Monaten: Analysezeit pro Antrag sank von durchschnittlich 90 Minuten auf 12 Minuten (85% Reduktion). Die Rate fehlerhafter Genehmigungen blieb gleich (das Modell ist nicht weniger konservativ als die Analysten). Das Kreditteam ging von der Bearbeitung von 10 Anträgen pro Person pro Tag auf 35. Und am wichtigsten: Die Aufsichtsbehörde prüfte das System und genehmigte es ohne Einwände.

Wenn Sie einen ähnlichen Fall haben oder bewerten möchten, ob der Service auf Ihr Unternehmen zutrifft, schreiben Sie uns an hallo@orionis.consulting. Die Erstbewertung ist kostenlos.

85% Reduktion der Analysezeit: von 90 Minuten auf 12 Minuten pro Kreditantrag. Das Team ging von 10 auf 35 Anträge/Tag pro Person, und die Aufsichtsbehörde genehmigte das System ohne Einwände.

Referenzen

BCRA — Konsolidierter Text zu Normen für Technologierisiko- und Informationssicherheitsmanagement

Banco Central de la República Argentina

BCRA — Comunicación A 6017: Richtlinien für Technologierisikomanagement

BCRA

Disposition 60-E/2016 — Sicherheitsmaßnahmen für personenbezogene Daten (Argentinien)

Argentina.gob.ar