Noticias2025-03-0112 min

Orionis lanza su servicio de LLMs on-premise para empresas reguladas

Orionis

2025-03-01

Ahora las empresas con datos sensibles en Argentina, Uruguay y LATAM pueden correr modelos de lenguaje en su propia infraestructura, con soporte completo, sin depender de APIs externas y cumpliendo con regulaciones locales de datos.

El problema que resolvemos

Desde que empezamos a trabajar con empresas del sector financiero, salud y legal, la misma pregunta aparecía en cada conversación: '¿Cómo podemos usar LLMs sin mandar datos de nuestros clientes a servidores de terceros?'. La respuesta hasta ahora era complicada — requería armar un equipo de ML interno, investigar modelos, configurar infraestructura, y rezar para que todo funcione en producción.

Hoy lanzamos un servicio que elimina esa complejidad. Desplegamos modelos de lenguaje open-source directamente en la infraestructura del cliente — sea su nube privada, un datacenter local, o hardware propio — con un stack completo de producción listo para usar desde el día uno.

No es un producto SaaS con un wrapper bonito. Es un deployment real, en tu infraestructura, con tu control total sobre los datos, los modelos y el acceso. Cuando terminamos el proyecto, todo el código, la configuración y la documentación son tuyos.

Qué incluye el servicio exactamente

El servicio tiene cuatro componentes principales que cubren todo lo necesario para ir de cero a producción.

Componente 1 — Diagnóstico y diseño (2 semanas): auditamos tus flujos de datos, identificamos qué información es regulada, evaluamos tu infraestructura existente, y diseñamos la arquitectura target. Entregamos un documento de arquitectura con diagramas, especificaciones de hardware, estimación de costos operativos, y un plan de implementación semana a semana.

Componente 2 — Deployment y configuración (3-4 semanas): instalamos y configuramos el stack completo. Esto incluye el servidor de inferencia (vLLM o TGI), el modelo seleccionado (Llama 3.1, Mistral Large, Qwen 2.5, u otro según el caso de uso), el pipeline de RAG si aplica (con Qdrant o pgvector), la API gateway compatible con OpenAI, y el stack de monitoreo (Prometheus, Grafana, Langfuse).

Componente 3 — Integración y fine-tuning (2-3 semanas): conectamos el deployment con tus sistemas existentes via API, configuramos los prompts y workflows para tus casos de uso específicos, y si es necesario, hacemos fine-tuning del modelo con tus datos (siempre dentro de tu infraestructura).

Componente 4 — Transferencia y soporte (2 semanas + contrato continuo): capacitamos a tu equipo de IT para operar y mantener el sistema, entregamos documentación completa de operaciones, y arrancamos el período de soporte post-deployment donde monitoreamos proactivamente y resolvemos incidentes.

Los 4 componentes del servicio LLM on-premise

Diagnóstico y diseño (2 semanas)

Auditoría de datos, evaluación de infraestructura, arquitectura target, plan de implementación

Deployment y configuración (3-4 semanas)

vLLM/TGI, modelo seleccionado, pipeline RAG, API gateway, stack de monitoreo

Integración y fine-tuning (2-3 semanas)

Conexión con sistemas existentes, configuración de prompts y workflows, fine-tuning si aplica

Transferencia y soporte (2 sem. + continuo)

Capacitación hands-on, documentación operativa, monitoreo proactivo, SLA de 4 horas

Para qué industrias y casos de uso

Diseñamos el servicio pensando en cuatro industrias principales, pero la arquitectura es agnóstica — aplica a cualquier empresa con requisitos de soberanía de datos.

Fintech y banca: análisis automático de solicitudes de crédito, detección de fraude con datos internos, generación de reportes regulatorios (BCRA, BCU, CMF), asistentes internos para oficiales de compliance, y procesamiento de documentación KYC/AML sin exponer datos de clientes.

Salud: resúmenes automáticos de historias clínicas, alertas de interacciones medicamentosas, asistentes para codificación diagnóstica (CIE-10), análisis de estudios de laboratorio, y generación de informes médicos estructurados. Todo cumpliendo con normativas de datos de salud locales.

Legal: revisión automática de contratos y detección de cláusulas problemáticas, búsqueda semántica sobre jurisprudencia interna, generación de borradores de documentos legales, y análisis de riesgo en litigios. Los estudios jurídicos manejan información extremadamente confidencial que no puede salir de su perímetro.

Seguros: procesamiento automático de siniestros, análisis de pólizas, detección de fraude en reclamos, y generación de informes para reaseguradoras. El volumen de documentación en seguros hace que la AI tenga un impacto operativo enorme.

Pricing y modelo de contratación

Somos transparentes con los costos porque creemos que las sorpresas en pricing destruyen la confianza.

El servicio de implementación tiene un costo fijo que varía según la complejidad del deployment. Para darte un rango indicativo: un deployment estándar (un modelo, un caso de uso principal, infraestructura en nube privada) arranca en USD 25,000-35,000. Un deployment complejo (múltiples modelos, fine-tuning, integración con varios sistemas legacy, infraestructura on-premise pura) puede llegar a USD 60,000-80,000.

Esto incluye todo el trabajo de diagnóstico, deployment, integración, fine-tuning si aplica, y transferencia de conocimiento. No hay costos ocultos ni sorpresas.

El contrato de soporte continuo (opcional pero recomendado) tiene un costo mensual que incluye: monitoreo proactivo 24/7, actualizaciones de modelos (evaluamos nuevos releases y los desplegamos si mejoran performance), soporte técnico con SLA de 4 horas para incidentes críticos, y 8 horas mensuales de consultoría para nuevos casos de uso o mejoras. El costo del soporte varía según el tamaño del deployment, pero como referencia está en el rango de USD 3,000-6,000/mes.

Importante: el costo de infraestructura (GPUs, storage, networking) corre por cuenta del cliente. Nosotros te asesoramos en la selección y te ayudamos a negociar con proveedores, pero la infraestructura es tuya.

Transparencia total en pricing: implementación estándar desde USD 25,000-35,000, compleja hasta USD 60,000-80,000. Soporte continuo USD 3,000-6,000/mes. Sin costos ocultos ni sorpresas.

El proceso de onboarding paso a paso

Semana 0 — Evaluación inicial (sin costo): nos reunimos por videollamada, entendemos tu caso, y te decimos con honestidad si el servicio tiene sentido para tu empresa. Si no lo tiene, te lo decimos y te recomendamos alternativas. Esta evaluación no tiene costo ni compromiso.

Semana 1-2 — Diagnóstico: nuestro equipo técnico audita tu infraestructura, tus flujos de datos, y tus requisitos regulatorios. Definimos juntos el alcance del proyecto, el modelo a utilizar, y la arquitectura target. Firmamos el contrato con scope, timeline y precio cerrados.

Semana 3-6 — Implementación: desplegamos el stack en tu infraestructura. Hacemos pruebas de carga, de seguridad, y de integración. Corremos un piloto con datos reales (o anonimizados, según tu preferencia) para validar calidad de respuestas y performance.

Semana 7-8 — Go-live y transferencia: pasamos a producción con monitoreo intensivo. Capacitamos a tu equipo con sesiones hands-on (no PowerPoints — terminales abiertas y práctica real). Entregamos runbooks para los escenarios más comunes: cómo reiniciar el servicio, cómo actualizar un modelo, cómo agregar un nuevo caso de uso, qué hacer si una GPU falla.

Semana 9-12 — Estabilización: seguimos monitoreando activamente, ajustamos configuraciones según el comportamiento real en producción, y resolvemos cualquier incidente. Al final de este período, tu equipo debería poder operar el sistema de manera autónoma.

Dato importante: durante todo el proceso, trabajamos en pares con tu equipo. No hacemos nada solos en una sala cerrada. La transferencia de conocimiento empieza el día uno, no al final.

Caso de uso: fintech de créditos en Buenos Aires

Para ilustrar cómo funciona en la práctica, compartimos un caso reciente (con autorización del cliente, datos anonimizados).

Una fintech de Buenos Aires con 130 empleados procesa más de 2,000 solicitudes de crédito por mes. Cada solicitud requiere analizar documentación (recibos de sueldo, extractos bancarios, informes de Veraz), cruzar datos con fuentes externas, y generar un informe de riesgo para el comité de créditos. El proceso manual tomaba entre 45 minutos y 2 horas por solicitud.

El problema regulatorio: la BCRA exige que los datos financieros de los solicitantes no salgan del perímetro del banco o la fintech. Usar GPT-4 via API para analizar recibos de sueldo era legalmente inviable.

Lo que implementamos: Llama 3.1 70B corriendo en un VPC dedicado en AWS (región São Paulo, la más cercana con disponibilidad de GPUs). Pipeline de RAG con la normativa del BCRA y las políticas internas de la fintech como base de conocimiento. Integración directa con su sistema core via API.

Resultados después de 3 meses: el tiempo de análisis por solicitud bajó de 90 minutos promedio a 12 minutos (85% de reducción). La tasa de aprobaciones incorrectas se mantuvo igual (el modelo no es menos conservador que los analistas). El equipo de créditos pasó de procesar 10 solicitudes por día por persona a 35. Y lo más importante: el regulador auditó el sistema y lo aprobó sin observaciones.

Si tenés un caso similar o querés evaluar si el servicio aplica para tu empresa, escribinos a hola@orionis.consulting. La evaluación inicial es sin costo.

85% de reducción en tiempo de análisis: de 90 minutos a 12 minutos por solicitud de crédito. El equipo pasó de 10 a 35 solicitudes/día por persona, y el regulador aprobó el sistema sin observaciones.

Referencias

BCRA — Texto Ordenado de Normas sobre Gestión del Riesgo de Tecnología y Seguridad de la Información

Banco Central de la República Argentina

BCRA — Comunicación A 6017: Lineamientos de Gestión de Riesgos de Tecnología

BCRA

Disposición 60-E/2016 — Medidas de Seguridad para Datos Personales (Argentina)

Argentina.gob.ar