Orionis lance un service de LLM on-premise pour les entreprises réglementées
Orionis
2025-03-01
Les entreprises avec des données sensibles en Argentine, en Uruguay et en Amérique latine peuvent désormais faire tourner des modèles de langage sur leur propre infrastructure, avec un support complet, sans dépendre d'API externes et en conformité avec les réglementations locales sur les données.
Le problème que nous résolvons
Depuis que nous avons commencé à travailler avec des entreprises des secteurs financier, de la santé et juridique, la même question revenait dans chaque conversation : 'Comment utiliser des LLMs sans envoyer les données de nos clients à des serveurs tiers ?' La réponse jusqu'à présent était compliquée — il fallait constituer une équipe ML interne, rechercher des modèles, configurer l'infrastructure et espérer que tout fonctionne en production.
Aujourd'hui nous lançons un service qui élimine cette complexité. Nous déployons des modèles de langage open-source directement sur l'infrastructure du client — que ce soit un cloud privé, un datacenter local ou votre propre matériel — avec un stack de production complet prêt à l'emploi dès le premier jour.
Ce n'est pas un produit SaaS avec une jolie interface. C'est un vrai déploiement, sur votre infrastructure, avec votre contrôle total sur les données, les modèles et les accès. Quand nous terminons le projet, tout le code, la configuration et la documentation sont à vous.
Ce que le service inclut exactement
Le service comprend quatre composantes principales qui couvrent tout ce qu'il faut pour passer de zéro à la production.
Composante 1 — Diagnostic et conception (2 semaines) : nous auditons vos flux de données, identifions quelles informations sont réglementées, évaluons votre infrastructure existante et concevons l'architecture cible. Nous livrons un document d'architecture avec des diagrammes, des spécifications matérielles, des estimations de coûts opérationnels et un plan d'implémentation semaine par semaine.
Composante 2 — Déploiement et configuration (3-4 semaines) : nous installons et configurons le stack complet. Cela inclut le serveur d'inférence (vLLM ou TGI), le modèle sélectionné (Llama 3.1, Mistral Large, Qwen 2.5, ou autre selon le cas d'usage), le pipeline RAG si applicable (avec Qdrant ou pgvector), le gateway API compatible OpenAI, et le stack de monitoring (Prometheus, Grafana, Langfuse).
Composante 3 — Intégration et fine-tuning (2-3 semaines) : nous connectons le déploiement avec vos systèmes existants via API, configurons les prompts et workflows pour vos cas d'usage spécifiques, et si nécessaire, affinons le modèle avec vos données (toujours au sein de votre infrastructure).
Composante 4 — Transfert et support (2 semaines + contrat continu) : nous formons votre équipe informatique à opérer et maintenir le système, livrons une documentation complète d'exploitation, et démarrons la période de support post-déploiement où nous surveillons proactivement et résolvons les incidents.
Les 4 composantes du service LLM on-premise
Diagnostic et conception (2 semaines)
Audit des données, évaluation de l'infrastructure, architecture cible, plan d'implémentation
Déploiement et configuration (3-4 semaines)
vLLM/TGI, modèle sélectionné, pipeline RAG, gateway API, stack de monitoring
Intégration et fine-tuning (2-3 semaines)
Connexion aux systèmes existants, configuration des prompts et workflows, fine-tuning si applicable
Transfert et support (2 sem. + continu)
Formation pratique, documentation opérationnelle, monitoring proactif, SLA de 4 heures
Industries cibles et cas d'usage
Nous avons conçu le service pour quatre industries principales, mais l'architecture est agnostique — elle s'applique à toute entreprise avec des exigences de souveraineté des données.
Fintech et banque : analyse automatisée des demandes de crédit, détection de fraude avec données internes, génération de rapports réglementaires (BCRA, BCU, CMF), assistants internes pour les responsables conformité, et traitement de la documentation KYC/AML sans exposer les données clients.
Santé : résumés automatiques de dossiers médicaux, alertes d'interactions médicamenteuses, assistants de codage diagnostique (CIM-10), analyse de résultats de laboratoire, et génération de rapports médicaux structurés. Le tout en conformité avec les réglementations locales sur les données de santé.
Juridique : révision automatique de contrats et détection de clauses problématiques, recherche sémantique dans la jurisprudence interne, génération de brouillons de documents juridiques, et analyse de risque contentieux. Les cabinets d'avocats manipulent des informations extrêmement confidentielles qui ne peuvent pas sortir de leur périmètre.
Assurance : traitement automatisé des sinistres, analyse de polices, détection de fraude aux sinistres, et génération de rapports pour les réassureurs. Le volume de documentation dans l'assurance rend l'impact opérationnel de l'IA énorme.
Tarification et modèle d'engagement
Nous sommes transparents sur les coûts car nous croyons que les surprises tarifaires détruisent la confiance.
Le service d'implémentation a un coût fixe qui varie selon la complexité du déploiement. Pour vous donner une fourchette indicative : un déploiement standard (un modèle, un cas d'usage principal, infrastructure cloud privé) commence à 25 000-35 000 USD. Un déploiement complexe (plusieurs modèles, fine-tuning, intégration avec plusieurs systèmes legacy, infrastructure purement on-premise) peut atteindre 60 000-80 000 USD.
Cela inclut tout le travail de diagnostic, déploiement, intégration, fine-tuning si applicable, et transfert de connaissances. Il n'y a pas de coûts cachés ni de surprises.
Le contrat de support continu (optionnel mais recommandé) a un coût mensuel qui inclut : monitoring proactif 24h/24, mises à jour des modèles (nous évaluons les nouvelles versions et les déployons si elles améliorent les performances), support technique avec un SLA de 4 heures pour les incidents critiques, et 8 heures mensuelles de conseil pour de nouveaux cas d'usage ou améliorations. Le coût du support varie selon la taille du déploiement, mais à titre de référence il se situe entre 3 000 et 6 000 USD/mois.
Important : les coûts d'infrastructure (GPU, stockage, réseau) sont à la charge du client. Nous vous conseillons sur la sélection et vous aidons à négocier avec les fournisseurs, mais l'infrastructure est la vôtre.
Transparence totale sur les tarifs : implémentation standard à partir de 25 000-35 000 USD, complexe jusqu'à 60 000-80 000 USD. Support continu 3 000-6 000 USD/mois. Pas de coûts cachés ni de surprises.
Le processus d'onboarding étape par étape
Semaine 0 — Évaluation initiale (sans frais) : nous nous rencontrons en visioconférence, comprenons votre cas, et vous disons honnêtement si le service a du sens pour votre entreprise. Si ce n'est pas le cas, nous vous le dirons et recommanderons des alternatives. Cette évaluation est sans frais ni engagement.
Semaines 1-2 — Diagnostic : notre équipe technique audite votre infrastructure, vos flux de données et vos exigences réglementaires. Ensemble nous définissons le périmètre du projet, le modèle à utiliser et l'architecture cible. Nous signons le contrat avec périmètre, calendrier et tarification verrouillés.
Semaines 3-6 — Implémentation : nous déployons le stack sur votre infrastructure. Nous effectuons des tests de charge, des tests de sécurité et des tests d'intégration. Nous lançons un pilote avec des données réelles (ou anonymisées, selon votre préférence) pour valider la qualité des réponses et les performances.
Semaines 7-8 — Mise en production et transfert : nous passons en production avec un monitoring intensif. Nous formons votre équipe avec des sessions pratiques (pas de PowerPoint — des terminaux ouverts et de la vraie pratique). Nous livrons des runbooks pour les scénarios les plus courants : comment redémarrer le service, comment mettre à jour un modèle, comment ajouter un nouveau cas d'usage, que faire si un GPU tombe en panne.
Semaines 9-12 — Stabilisation : nous continuons à surveiller activement, ajustons les configurations en fonction du comportement réel en production, et résolvons les incidents. À la fin de cette période, votre équipe doit être capable d'opérer le système de manière autonome.
Détail important : tout au long du processus, nous travaillons en binôme avec votre équipe. Nous ne faisons rien seuls dans une pièce fermée. Le transfert de connaissances commence dès le premier jour, pas à la fin.
Étude de cas : fintech de crédit à Buenos Aires
Pour illustrer comment cela fonctionne en pratique, nous partageons un cas récent (avec l'autorisation du client, données anonymisées).
Une fintech de Buenos Aires avec 130 employés traite plus de 2 000 demandes de crédit par mois. Chaque demande nécessite l'analyse de documents (fiches de paie, relevés bancaires, rapports de crédit Veraz), le croisement de données avec des sources externes, et la génération d'un rapport de risque pour le comité de crédit. Le processus manuel prenait entre 45 minutes et 2 heures par demande.
Le problème réglementaire : la BCRA exige que les données financières des demandeurs ne quittent pas le périmètre de la banque ou de la fintech. Utiliser GPT-4 via API pour analyser des fiches de paie était juridiquement inviable.
Ce que nous avons implémenté : Llama 3.1 70B tournant sur un VPC dédié sur AWS (région São Paulo, la plus proche avec disponibilité GPU). Pipeline RAG avec les réglementations de la BCRA et les politiques internes de la fintech comme base de connaissances. Intégration directe avec leur système core via API.
Résultats après 3 mois : le temps d'analyse par demande est passé d'une moyenne de 90 minutes à 12 minutes (réduction de 85 %). Le taux d'approbations incorrectes est resté le même (le modèle n'est pas moins conservateur que les analystes). L'équipe crédit est passée de 10 demandes par personne par jour à 35. Et surtout : le régulateur a audité le système et l'a approuvé sans objection.
Si vous avez un cas similaire ou souhaitez évaluer si le service s'applique à votre entreprise, écrivez-nous à bonjour@orionis.consulting. L'évaluation initiale est gratuite.
Réduction de 85 % du temps d'analyse : de 90 minutes à 12 minutes par demande de crédit. L'équipe est passée de 10 à 35 demandes/jour par personne, et le régulateur a approuvé le système sans objection.
Références
BCRA — Texte consolidé sur les normes de gestion des risques technologiques et de sécurité de l'information
Banco Central de la República Argentina
BCRA — Communication A 6017 : Directives de gestion des risques technologiques
BCRA
Disposition 60-E/2016 — Mesures de sécurité pour les données personnelles (Argentine)
Argentina.gob.ar