OrionisOrionis
Voltar ao blog
Notícias2025-03-0112 min

Orionis lança seu serviço de LLMs on-premise para empresas reguladas

O

Orionis

2025-03-01

Agora as empresas com dados sensíveis na Argentina, Uruguai e LATAM podem rodar modelos de linguagem na sua própria infraestrutura, com suporte completo, sem depender de APIs externas e cumprindo regulações locais de dados.

O problema que resolvemos

Desde que começamos a trabalhar com empresas do setor financeiro, saúde e jurídico, a mesma pergunta aparecia em toda conversa: 'Como podemos usar LLMs sem enviar dados dos nossos clientes para servidores de terceiros?'. A resposta até agora era complicada — exigia montar uma equipe de ML interna, pesquisar modelos, configurar infraestrutura, e torcer para que tudo funcionasse em produção.

Hoje lançamos um serviço que elimina essa complexidade. Implantamos modelos de linguagem open-source diretamente na infraestrutura do cliente — seja sua nuvem privada, um datacenter local, ou hardware próprio — com um stack completo de produção pronto para usar desde o primeiro dia.

Não é um produto SaaS com uma interface bonita por cima. É um deployment real, na sua infraestrutura, com seu controle total sobre os dados, os modelos e o acesso. Quando terminamos o projeto, todo o código, a configuração e a documentação são seus.

O que o serviço inclui exatamente

O serviço tem quatro componentes principais que cobrem tudo o que é necessário para ir do zero à produção.

Componente 1 — Diagnóstico e design (2 semanas): auditamos seus fluxos de dados, identificamos qual informação é regulada, avaliamos sua infraestrutura existente, e desenhamos a arquitetura alvo. Entregamos um documento de arquitetura com diagramas, especificações de hardware, estimativa de custos operacionais, e um plano de implementação semana a semana.

Componente 2 — Deployment e configuração (3-4 semanas): instalamos e configuramos o stack completo. Isso inclui o servidor de inferência (vLLM ou TGI), o modelo selecionado (Llama 3.1, Mistral Large, Qwen 2.5, ou outro conforme o caso de uso), o pipeline de RAG se aplicável (com Qdrant ou pgvector), o API gateway compatível com OpenAI, e o stack de monitoramento (Prometheus, Grafana, Langfuse).

Componente 3 — Integração e fine-tuning (2-3 semanas): conectamos o deployment com seus sistemas existentes via API, configuramos os prompts e workflows para seus casos de uso específicos, e se necessário, fazemos fine-tuning do modelo com seus dados (sempre dentro da sua infraestrutura).

Componente 4 — Transferência e suporte (2 semanas + contrato contínuo): capacitamos sua equipe de TI para operar e manter o sistema, entregamos documentação completa de operações, e iniciamos o período de suporte pós-deployment onde monitoramos proativamente e resolvemos incidentes.

Os 4 componentes do serviço LLM on-premise

Diagnóstico e design (2 semanas)

Auditoria de dados, avaliação de infraestrutura, arquitetura alvo, plano de implementação

Deployment e configuração (3-4 semanas)

vLLM/TGI, modelo selecionado, pipeline RAG, API gateway, stack de monitoramento

Integração e fine-tuning (2-3 semanas)

Conexão com sistemas existentes, configuração de prompts e workflows, fine-tuning se aplicável

Transferência e suporte (2 sem. + contínuo)

Capacitação hands-on, documentação operacional, monitoramento proativo, SLA de 4 horas

Para quais indústrias e casos de uso

Desenhamos o serviço pensando em quatro indústrias principais, mas a arquitetura é agnóstica — se aplica a qualquer empresa com requisitos de soberania de dados.

Fintech e bancos: análise automática de solicitações de crédito, detecção de fraude com dados internos, geração de relatórios regulatórios (BCRA, BCU, CMF), assistentes internos para oficiais de compliance, e processamento de documentação KYC/AML sem expor dados de clientes.

Saúde: resumos automáticos de prontuários, alertas de interações medicamentosas, assistentes para codificação diagnóstica (CID-10), análise de exames laboratoriais, e geração de laudos médicos estruturados. Tudo em conformidade com as normas de dados de saúde locais.

Jurídico: revisão automática de contratos e detecção de cláusulas problemáticas, busca semântica sobre jurisprudência interna, geração de minutas de documentos jurídicos, e análise de risco em litígios. Os escritórios de advocacia lidam com informação extremamente confidencial que não pode sair do seu perímetro.

Seguros: processamento automático de sinistros, análise de apólices, detecção de fraude em reclamações, e geração de relatórios para resseguradoras. O volume de documentação em seguros faz com que a AI tenha um impacto operacional enorme.

Preços e modelo de contratação

Somos transparentes com os custos porque acreditamos que surpresas no pricing destroem a confiança.

O serviço de implementação tem um custo fixo que varia conforme a complexidade do deployment. Para dar uma faixa indicativa: um deployment padrão (um modelo, um caso de uso principal, infraestrutura em nuvem privada) começa em USD 25.000-35.000. Um deployment complexo (múltiplos modelos, fine-tuning, integração com vários sistemas legados, infraestrutura on-premise pura) pode chegar a USD 60.000-80.000.

Isso inclui todo o trabalho de diagnóstico, deployment, integração, fine-tuning se aplicável, e transferência de conhecimento. Não há custos ocultos nem surpresas.

O contrato de suporte contínuo (opcional mas recomendado) tem um custo mensal que inclui: monitoramento proativo 24/7, atualizações de modelos (avaliamos novos releases e os implantamos se melhorarem a performance), suporte técnico com SLA de 4 horas para incidentes críticos, e 8 horas mensais de consultoria para novos casos de uso ou melhorias. O custo do suporte varia conforme o tamanho do deployment, mas como referência está na faixa de USD 3.000-6.000/mês.

Importante: o custo de infraestrutura (GPUs, storage, rede) fica por conta do cliente. Nós assessoramos na seleção e ajudamos a negociar com provedores, mas a infraestrutura é sua.

Transparência total no pricing: implementação padrão a partir de USD 25.000-35.000, complexa até USD 60.000-80.000. Suporte contínuo USD 3.000-6.000/mês. Sem custos ocultos nem surpresas.

O processo de onboarding passo a passo

Semana 0 — Avaliação inicial (sem custo): nos reunimos por videochamada, entendemos seu caso, e dizemos com honestidade se o serviço faz sentido para sua empresa. Se não fizer, dizemos e recomendamos alternativas. Essa avaliação não tem custo nem compromisso.

Semana 1-2 — Diagnóstico: nossa equipe técnica audita sua infraestrutura, seus fluxos de dados, e seus requisitos regulatórios. Definimos juntos o escopo do projeto, o modelo a utilizar, e a arquitetura alvo. Assinamos o contrato com escopo, cronograma e preço fechados.

Semana 3-6 — Implementação: implantamos o stack na sua infraestrutura. Fazemos testes de carga, de segurança, e de integração. Rodamos um piloto com dados reais (ou anonimizados, conforme sua preferência) para validar qualidade de respostas e performance.

Semana 7-8 — Go-live e transferência: passamos para produção com monitoramento intensivo. Capacitamos sua equipe com sessões hands-on (nada de PowerPoints — terminais abertos e prática real). Entregamos runbooks para os cenários mais comuns: como reiniciar o serviço, como atualizar um modelo, como adicionar um novo caso de uso, o que fazer se uma GPU falhar.

Semana 9-12 — Estabilização: continuamos monitorando ativamente, ajustamos configurações conforme o comportamento real em produção, e resolvemos qualquer incidente. Ao final desse período, sua equipe deve conseguir operar o sistema de forma autônoma.

Dado importante: durante todo o processo, trabalhamos em pares com sua equipe. Não fazemos nada sozinhos numa sala fechada. A transferência de conhecimento começa no primeiro dia, não no final.

Caso de uso: fintech de crédito em Buenos Aires

Para ilustrar como funciona na prática, compartilhamos um caso recente (com autorização do cliente, dados anonimizados).

Uma fintech de Buenos Aires com 130 funcionários processa mais de 2.000 solicitações de crédito por mês. Cada solicitação exige analisar documentação (comprovantes de renda, extratos bancários, relatórios do Veraz), cruzar dados com fontes externas, e gerar um relatório de risco para o comitê de crédito. O processo manual levava entre 45 minutos e 2 horas por solicitação.

O problema regulatório: o BCRA exige que os dados financeiros dos solicitantes não saiam do perímetro do banco ou da fintech. Usar GPT-4 via API para analisar comprovantes de renda era legalmente inviável.

O que implementamos: Llama 3.1 70B rodando em um VPC dedicado na AWS (região São Paulo, a mais próxima com disponibilidade de GPUs). Pipeline de RAG com a normativa do BCRA e as políticas internas da fintech como base de conhecimento. Integração direta com o sistema core via API.

Resultados após 3 meses: o tempo de análise por solicitação caiu de 90 minutos em média para 12 minutos (85% de redução). A taxa de aprovações incorretas se manteve igual (o modelo não é menos conservador que os analistas). A equipe de crédito passou de processar 10 solicitações por dia por pessoa para 35. E o mais importante: o regulador auditou o sistema e o aprovou sem observações.

Se você tem um caso similar ou quer avaliar se o serviço se aplica à sua empresa, escreva para [email protected]. A avaliação inicial é sem custo.

85% de redução no tempo de análise: de 90 minutos para 12 minutos por solicitação de crédito. A equipe passou de 10 para 35 solicitações/dia por pessoa, e o regulador aprovou o sistema sem observações.

Compartir:
Próximo passo

Tem um processopara automatizar?

Responda 5 perguntas rápidas e receba uma estimativa de custo e prazo na hora.

Sem compromissoResposta imediata