新闻2025-03-0112分钟

Orionis为受监管企业推出本地部署LLM服务

Orionis

2025-03-01

阿根廷、乌拉圭和拉丁美洲拥有敏感数据的企业现在可以在自己的基础设施上运行语言模型，获得全面支持，无需依赖外部API，并符合当地数据法规。

我们解决的问题

自从我们开始与金融、医疗和法律领域的公司合作以来，每次对话中都会出现同样的问题：「我们如何在不将客户数据发送到第三方服务器的情况下使用LLM？」到目前为止，答案是复杂的——它需要组建一个内部ML团队，研究模型，配置基础设施，并希望一切在生产中正常工作。

今天我们推出一项消除这种复杂性的服务。我们将开源语言模型直接部署在客户基础设施上——无论是私有云、本地数据中心还是您自己的硬件——带有一个从第一天就可以使用的完整生产栈。

这不是一个带有漂亮包装的SaaS产品。这是一个真正的部署，在您的基础设施上，由您完全控制数据、模型和访问权限。当我们完成项目时，所有代码、配置和文档都是您的。

服务具体包括什么

该服务有四个主要组件，涵盖从零到生产所需的一切。

组件1——诊断与设计（2周）：我们审计您的数据流，识别哪些信息受监管，评估您现有的基础设施，并设计目标架构。我们交付一份架构文档，包含图表、硬件规格、运营成本估算和逐周实施计划。

组件2——部署与配置（3-4周）：我们安装和配置完整栈。包括推理服务器（vLLM或TGI）、选定的模型（Llama 3.1、Mistral Large、Qwen 2.5或其他基于用例的模型）、RAG管线（如适用，使用Qdrant或pgvector）、兼容OpenAI的API网关，以及监控栈（Prometheus、Grafana、Langfuse）。

组件3——集成与微调（2-3周）：我们通过API将部署与您现有系统连接，为您的特定用例配置提示和工作流，如有必要，使用您的数据对模型进行微调（始终在您的基础设施内）。

组件4——交接与支持（2周+持续合同）：我们培训您的IT团队操作和维护系统，交付完整的运维文档，并开始部署后支持期间，在此期间我们主动监控并解决事件。

本地LLM服务的4个组件

诊断与设计（2周）

数据审计、基础设施评估、目标架构、实施计划

部署与配置（3-4周）

vLLM/TGI、选定模型、RAG管线、API网关、监控栈

集成与微调（2-3周）

与现有系统连接、提示和工作流配置、如适用进行微调

交接与支持（2周+持续）

实操培训、运维文档、主动监控、4小时SLA

目标行业和用例

我们设计该服务时考虑了四个主要行业，但架构是通用的——它适用于任何有数据主权要求的公司。

金融科技和银行：自动化信用申请分析、使用内部数据的欺诈检测、监管报告生成（BCRA、BCU、CMF）、合规官内部助手，以及KYC/AML文件处理，不暴露客户数据。

医疗健康：自动化病历摘要、药物相互作用提醒、诊断编码助手（ICD-10）、化验结果分析，以及结构化医疗报告生成。所有这些都符合当地健康数据法规。

法律：自动化合同审查和问题条款检测、内部判例的语义搜索、法律文件草案生成，以及诉讼风险分析。律师事务所处理极其机密的信息，不能离开其安全边界。

保险：自动化理赔处理、保单分析、理赔欺诈检测，以及再保险公司的报告生成。保险业的文件量使得AI的运营影响非常巨大。

定价和合作模式

我们对成本保持透明，因为我们相信价格意外会破坏信任。

实施服务有一个根据部署复杂性而变化的固定成本。给您一个参考范围：标准部署（一个模型、一个主要用例、私有云基础设施）起价25,000-35,000美元。复杂部署（多个模型、微调、与多个遗留系统集成、纯本地基础设施）可达60,000-80,000美元。

这包括所有诊断、部署、集成、微调（如适用）和知识转移工作。没有隐藏成本或意外。

持续支持合同（可选但推荐）有一个月度成本，包括：主动的7×24监控、模型更新（我们评估新版本并在性能改善时部署）、关键事件4小时SLA的技术支持，以及每月8小时的新用例或改进咨询。支持成本因部署规模而异，但作为参考在每月3,000-6,000美元的范围内。

重要提示：基础设施成本（GPU、存储、网络）由客户承担。我们就选择提供建议并帮助您与供应商谈判，但基础设施是您的。

完全价格透明：标准实施从25,000-35,000美元起，复杂项目最高60,000-80,000美元。持续支持每月3,000-6,000美元。没有隐藏成本或意外。

入职流程逐步说明

第0周——初始评估（免费）：我们通过视频会议见面，了解您的情况，并诚实地告诉您该服务是否适合您的公司。如果不适合，我们会告诉您并推荐替代方案。此评估没有成本或承诺。

第1-2周——诊断：我们的技术团队审计您的基础设施、数据流和监管要求。我们共同确定项目范围、使用的模型和目标架构。我们签署锁定范围、时间线和价格的合同。

第3-6周——实施：我们在您的基础设施上部署栈。我们运行负载测试、安全测试和集成测试。我们使用真实数据（或匿名化数据，取决于您的偏好）运行试点以验证响应质量和性能。

第7-8周——上线和交接：我们投入生产并进行密集监控。我们通过实操培训（不是PPT——打开终端进行真实练习）来培训您的团队。我们交付最常见场景的运行手册：如何重启服务、如何更新模型、如何添加新用例、GPU故障时该怎么做。

第9-12周——稳定化：我们继续主动监控，根据实际生产行为调整配置，并解决任何事件。在此期间结束时，您的团队应该能够自主操作系统。

重要细节：在整个过程中，我们与您的团队配对工作。我们不会在封闭的房间里独自做任何事情。知识转移从第一天开始，而不是在最后。

案例研究：布宜诺斯艾利斯的贷款金融科技

为了说明这在实践中如何运作，我们分享一个最近的案例（经客户授权，匿名化数据）。

一家拥有130名员工的布宜诺斯艾利斯金融科技公司每月处理超过2,000份信用申请。每份申请需要分析文件（工资单、银行对账单、Veraz信用报告），与外部来源交叉核对数据，并为信用委员会生成风险报告。手动流程每份申请需要45分钟到2小时。

监管问题：BCRA要求申请人的金融数据不得离开银行或金融科技公司的安全边界。使用GPT-4通过API分析工资单在法律上是不可行的。

我们实施了什么：Llama 3.1 70B运行在AWS上的专用VPC中（圣保罗区域，最近的有GPU可用性的区域）。RAG管线以BCRA法规和金融科技公司的内部政策作为知识库。通过API直接集成其核心系统。

3个月后的结果：每份申请的分析时间从平均90分钟降至12分钟（减少85%）。错误批准率保持不变（模型不比分析师更不保守）。信用团队从每人每天处理10份申请变为35份。最重要的是：监管机构审计了系统并无异议地批准了它。

如果您有类似的案例或想评估该服务是否适用于您的公司，请写信至nihao@orionis.consulting。初始评估免费。

分析时间减少85%：每份信用申请从90分钟降至12分钟。团队从每人每天10份增至35份申请，监管机构无异议地批准了系统。

参考资料

BCRA — 关于技术风险和信息安全管理规范的综合文本

阿根廷共和国中央银行

BCRA — 通信A 6017：技术风险管理指南

BCRA

第60-E/2016号规定 — 个人数据安全措施（阿根廷）

Argentina.gob.ar