文章2025-03-1518分钟

为什么你的公司应该在2025年考虑本地部署LLM

JPL

José Pedro Lecha

2025-03-15

拉丁美洲的数据治理法规正在收紧。我们分析何时在自己的基础设施上运行语言模型是合理的，何时是浪费钱，以及真正需要什么技术栈来正确实施。

监管格局：为什么这不再是可选项

在过去18个月里，拉丁美洲的监管格局发生了巨大变化。阿根廷推进实施了《个人数据保护法》，巴西收紧了LGPD，累计罚款已超过5000万雷亚尔，墨西哥更新了《联邦数据保护法》，增加了针对人工智能的具体指南。哥伦比亚和智利也在走同样的路。

对于金融或医疗领域的200人公司来说，这有直接影响：每次员工将客户数据粘贴到ChatGPT中，或您的系统将敏感信息发送到OpenAI的API，您就可能违反当地法规。这不是多虑——这是当前的法律框架。

问题不在于OpenAI、Anthropic或Google的API不安全。问题在于您无法控制数据在哪里被处理、谁访问它以及如何保留它。对于监管机构来说，这足以被视为未经授权的国际数据传输。

趋势很明确：数据主权已经从合规问题变成了运营要求。不适应的公司将失去合同、面临罚款，或干脆被排除在公私招标之外。

参考资料

Lei Geral de Proteção de Dados Pessoais (LGPD) — 全文

Planalto（巴西联邦政府）

阿根廷个人数据保护法 — 第25,326号法律

Argentina.gob.ar

国家数据保护局 — 巴西（ANPD）

ANPD Brasil

2025年的'本地部署'意味着什么（和你想的不一样）

当我们说'本地部署'时，许多CTO脑中浮现的是办公室地下室里的服务器机架，和凌晨3点更换硬盘的系统管理员。这个画面已经过时了。

2025年的本地部署有三种实际形态。第一：带隔离的私有云——在AWS、GCP或Azure上的专用VPC，配有网络策略保证数据永远不会离开所在区域。第二：本地数据中心的裸金属——在Equinix、EdgeUno或DataCenter Paraguay等数据中心的专用服务器，您拥有硬件的物理控制权。第三：您自己的硬件——在您现有基础设施中的GPU，适合已经拥有计算能力的大型企业。

这三种情况的关键是一样的：数据永远不会跨越您无法控制的边界。您决定运行哪个模型、保留什么日志、谁有访问权限、以及信息保留多长时间。这才是真正的数据主权，不是营销话术。

许多人忽略的一个细节：本地部署不意味着断网。您可以拥有一个本地部署，定期更新新模型，向中央仪表板报告使用指标（不含敏感数据），并根据需求自动扩展。终端用户体验可以与使用外部API完全相同。

已经与GPT-4竞争的开源模型

开源模型生态系统在2024-2025年爆发式增长。我们讨论的不再是给出泛泛回答的平庸模型——现在有些选项在特定任务上能与闭源模型认真竞争。

Meta的Llama 3.1 405B在通用能力方面最为出色。对于大多数企业任务——文档摘要、分类、实体提取、报告生成——它的表现与GPT-4相当。70B版本在更易获取的硬件上非常适合生产使用，8B版本在低延迟的简单任务中表现令人惊讶。

Mistral Large和Mixtral 8x22B是欧洲选项，在西班牙语和葡萄牙语方面表现出色，这对拉美市场至关重要。阿里巴巴的Qwen 2.5以其多语言能力和有限硬件上的效率让所有人惊叹。DeepSeek V3则证明了用更高效的架构可以实现前沿级别的性能。

关键点是：对于80%的企业用例——不需要复杂的前沿推理——这些模型绰绰有余。而且您可以在自己的基础设施上运行它们，无需按token付费。

80%的企业用例不需要前沿模型。Llama 3.1和Mistral等开源模型在摘要、分类和实体提取等任务上已经与GPT-4竞争。

参考资料

Llama 3.1 — 模型卡片和概述

Meta AI

Mistral Large — 文档

Mistral AI

Qwen 2.5 — 模型集合

HuggingFace

DeepSeek-V3技术报告

arXiv

真实成本对比：API vs 本地部署

让我们用一个真实案例来算算账。一家拥有150名员工的金融服务公司，使用LLM来分析法律文件、生成合规报告和辅助客户服务。

使用外部API（GPT-4o）：他们每天处理大约200万个输入token和50万个输出token。按照当前OpenAI价格，约为每天25美元输入和7.50美元输出。大约每月975美元。听起来很便宜，对吧？但加上：每月200美元的编排工具，150美元的外部日志和监控，以及可变延迟影响用户体验的隐性成本。真实总计：约每月1,400美元。

使用本地部署（Llama 3.1 70B在2块NVIDIA A100上）：GPU租赁成本约每月3,500美元。加上500美元的支持基础设施（网络、存储、电力）和300美元的维护。总计：约每月4,300美元。但这个成本是固定的——无论你处理200万还是2000万token都一样。

盈亏平衡点大约在每天600-800万token。如果你的公司打算扩大AI使用量（他们都会的），本地部署在6-12个月内会变得更便宜。此外，你消除了对不事先通知就变价的依赖——OpenAI已经多次调价了。

还有第三个成本没人写进电子表格：数据事件的成本。通过外部API处理的客户数据泄露可能会导致数百万的罚款和声誉损失。本地部署大大降低了这一风险。

API和本地部署的盈亏平衡点在每天600-800万token。如果你的公司打算扩大AI使用量，本地部署在6-12个月内会变得更便宜。

成本对比：外部API vs 本地部署

外部API（GPT-4o）

约每月1,400美元 — 按token变动成本，可变延迟，依赖供应商定价

本地部署（Llama 3.1 70B）

约每月4,300美元 — 固定成本不受量级影响，无token限制，完全控制

盈亏平衡

每天600-800万token — 超过此量级，本地部署更经济

隐性成本

外部API数据事件：数百万罚款 + 声誉损失

行业用例：本地部署在哪里不可或缺

金融科技和银行：该地区的银行和金融科技公司已经在使用LLM进行信用风险分析、实时欺诈检测和自动化监管报告。阿根廷一家中型银行实施了Llama 3本地部署用于信用申请分析，将评估时间从48小时缩短至15分钟，处理来自BCRA、Veraz和内部文件的数据，一切都不离开其网络。监管机构正是因为数据从未离开安全边界而批准了它。

医疗健康：医院和医疗保险公司处理包含极度敏感数据的病历、化验结果和医学影像。乌拉圭一家诊所网络实施了Mistral来生成病历摘要和药物相互作用提醒。所有内容都运行在他们数据中心内的专用集群上，符合当地健康数据保护法律。

法律：律师事务所和企业法务部门处理合同、诉讼和机密文件。布宜诺斯艾利斯一家大型律所使用Llama 3来审查合同和检测问题条款。他们每月处理超过500份合同，没有一个字节离开他们的基础设施。

能源和矿业：在连接不稳定的偏远地区运营的公司。本地部署保证即使互联网连接中断，模型也能继续运行。

技术栈：你真正需要什么

让我们具体谈谈技术栈。要在生产环境中部署Llama 3.1 70B，你至少需要2块NVIDIA A100 80GB或等效的（H100更好但更贵，在该地区也更难获取）。对于8B模型，一块A10G甚至RTX 4090就足够了。

在推理层，我们使用vLLM作为推理服务器——它是生产环境中服务LLM的事实标准。它支持连续批处理、用于高效内存使用的PagedAttention，并且与OpenAI API兼容，这使得迁移更容易。备选方案是HuggingFace的TGI，同样可靠。

编排方面，如果你需要RAG（检索增强生成），使用LangChain或LlamaIndex，这是最常见的企业用例。向量存储可以是Qdrant、Weaviate，或者如果你已经使用PostgreSQL则用pgvector。

监控使用Prometheus + Grafana来追踪推理指标（延迟、吞吐量、GPU利用率、队列深度）。LangSmith或Langfuse用于LLM链路可观测性——追踪、质量评估、幻觉检测。

所有这些都运行在Kubernetes（EKS、GKE或本地k3s）上，使用我们维护和版本控制的Helm charts。内部团队收到完整的文档和培训来操作集群。

本地LLM技术栈

硬件

2块NVIDIA A100 80GB（或H100）— 用于推理的专用GPU

推理

vLLM — 支持连续批处理、PagedAttention、兼容OpenAI API的服务器

编排 + RAG

LangChain / LlamaIndex + 向量存储（Qdrant、Weaviate或pgvector）

可观测性

Prometheus + Grafana（GPU指标）+ LangSmith/Langfuse（LLM追踪）

平台

Kubernetes（EKS、GKE或k3s），使用版本化的Helm charts

本地部署不合理的情况

我会直说：对于很多公司来说，本地部署是个坏主意。而我们工作的一部分就是在适用时告诉你这一点。

如果你的公司不到50人且不在受监管行业，外部API几乎总是最佳选择。基础设施成本、维护开销和你失去的迭代速度不值得。使用GPT-4o或Claude通过它们的API，实施基本的DLP（数据泄露防护）控制，就可以了。

如果你的用例是实验性的——你在测试AI是否能改善某个流程但还没有真实量级——从API开始。验证用例，衡量ROI，当你确定它有效且量级合理时，再迁移到本地部署。

如果你没有基础设施团队（哪怕一个人）能够监控部署，不要在没有支持合同的情况下走本地部署。模型需要更新，GPU需要监控，管线需要维护。

如果你的用例持续需要最新的前沿模型，本地部署也不合理。如果你总是需要GPT或Claude一发布就用最新版本，本地部署会让你总是慢一步。但说实话：大多数企业用例不需要前沿模型。

混合路径：两全其美

现实是，我们大多数客户最终采用了混合架构。不是全部本地或全部API——而是基于数据类型和用例的智能组合。

我们最常实施的模式：敏感数据（客户信息、金融数据、病历）专门用本地模型处理。非敏感数据（营销内容、公开趋势分析、通用内部文件生成）走外部API，那里延迟更低、模型更强大。

这需要一个智能路由器，按敏感性分类请求并将其定向到适当的模型。听起来复杂，但有好的网关架构，一周实施就能搞定。

好处很明确：你在重要的地方合规，在可以的地方利用闭源模型的能力，并优化成本。我们保险行业的一个客户通过这种方法将总AI支出减少了40%，同时改善了合规状况。

混合架构是最被采用的模式：敏感数据走本地模型，非敏感数据走外部API。智能路由器分类并定向每个请求。

混合架构：智能请求路由

传入请求

用户或系统生成涉及数据的查询

敏感性分类器

网关分析内容并确定是否包含受监管数据

敏感路由 → 本地LLM

金融、临床或个人数据在本地处理（Llama 3.1）

非敏感路由 → 外部API

营销内容、公开分析走GPT-4o或Claude

统一响应

结果交付给用户，无论由哪个模型产生

如何开始：我们在Orionis遵循的流程

如果你正在评估走本地路线，以下是我们与每位客户遵循的流程。这不是销售话术——而是我们实际使用的方法论。

第1-2周：诊断。我们审计你当前的数据流，识别哪些信息受监管，梳理现有和潜在的AI用例，并评估你的基础设施。我们交付一份带有明确建议的可行性文件。

第3-4周：概念验证。我们在暂存环境中用匿名化数据搭建一个部署。我们用你的真实用例测试选定的模型，并衡量性能、延迟和响应质量，与你目前使用的API进行对比。

第5-8周：生产部署。我们配置完整栈——推理、RAG（如适用）、监控、告警、备份和安全策略。我们通过兼容OpenAI的API与你现有系统集成。

第9-12周：交接和稳定化。我们培训你的团队，记录所有内容，并在系统在生产中稳定时提供积极支持。

部署后，我们提供持续支持合同，包括模型更新、主动监控和新用例咨询。但重要的是，如果你决定和我们分开，你拥有自主运营所需的一切。代码、配置和知识都是你的。

本地部署实施流程

阶段1：诊断（第1-2周）

数据流审计、基础设施评估、可行性文件

阶段2：概念验证（第3-4周）

暂存环境部署、匿名化数据测试、与当前API的基准对比

阶段3：生产（第5-8周）

完整栈：推理、RAG、监控、告警、系统集成

阶段4：交接（第9-12周）

团队培训、文档、积极支持、运营自主

你应该问的问题

问题不是'我应该走本地部署吗？'正确的问题是：'当我把数据发送到外部API时，我的数据发生了什么，我能接受那个答案吗？'

如果答案是'我不确定'，你需要调查。如果答案是'我承受不了那个风险'，你需要一个计划。如果答案是'我的监管机构会问我这个问题'，你需要现在就行动。

开源模型已经达到了使中型企业本地部署变得可行的成熟度。硬件可获取。技术栈成熟。法规只会越来越严格。现在行动的公司将拥有真正的竞争优势——不仅在合规方面，还在定制和控制AI模型的能力方面。

如果你想评估你的具体情况，请写信至nihao@orionis.consulting。我们提供免费的初始评估，诚实地告诉你本地部署是否适合你的公司，还是外部API更好。我们的承诺是给你最好的建议，即使这意味着我们不一起合作。