为什么你的公司应该在2025年考虑本地部署LLM
José Pedro Lecha
2025-03-15
拉丁美洲的数据治理法规正在收紧。我们分析何时在自己的基础设施上运行语言模型是合理的,何时是浪费钱,以及真正需要什么技术栈来正确实施。
监管格局:为什么这不再是可选项
在过去18个月里,拉丁美洲的监管格局发生了巨大变化。阿根廷推进实施了《个人数据保护法》,巴西收紧了LGPD,累计罚款已超过5000万雷亚尔,墨西哥更新了《联邦数据保护法》,增加了针对人工智能的具体指南。哥伦比亚和智利也在走同样的路。
对于金融或医疗领域的200人公司来说,这有直接影响:每次员工将客户数据粘贴到ChatGPT中,或您的系统将敏感信息发送到OpenAI的API,您就可能违反当地法规。这不是多虑——这是当前的法律框架。
问题不在于OpenAI、Anthropic或Google的API不安全。问题在于您无法控制数据在哪里被处理、谁访问它以及如何保留它。对于监管机构来说,这足以被视为未经授权的国际数据传输。
趋势很明确:数据主权已经从合规问题变成了运营要求。不适应的公司将失去合同、面临罚款,或干脆被排除在公私招标之外。
2025年的'本地部署'意味着什么(和你想的不一样)
当我们说'本地部署'时,许多CTO脑中浮现的是办公室地下室里的服务器机架,和凌晨3点更换硬盘的系统管理员。这个画面已经过时了。
2025年的本地部署有三种实际形态。第一:带隔离的私有云——在AWS、GCP或Azure上的专用VPC,配有网络策略保证数据永远不会离开所在区域。第二:本地数据中心的裸金属——在Equinix、EdgeUno或DataCenter Paraguay等数据中心的专用服务器,您拥有硬件的物理控制权。第三:您自己的硬件——在您现有基础设施中的GPU,适合已经拥有计算能力的大型企业。
这三种情况的关键是一样的:数据永远不会跨越您无法控制的边界。您决定运行哪个模型、保留什么日志、谁有访问权限、以及信息保留多长时间。这才是真正的数据主权,不是营销话术。
许多人忽略的一个细节:本地部署不意味着断网。您可以拥有一个本地部署,定期更新新模型,向中央仪表板报告使用指标(不含敏感数据),并根据需求自动扩展。终端用户体验可以与使用外部API完全相同。
已经与GPT-4竞争的开源模型
开源模型生态系统在2024-2025年爆发式增长。我们讨论的不再是给出泛泛回答的平庸模型——现在有些选项在特定任务上能与闭源模型认真竞争。
Meta的Llama 3.1 405B在通用能力方面最为出色。对于大多数企业任务——文档摘要、分类、实体提取、报告生成——它的表现与GPT-4相当。70B版本在更易获取的硬件上非常适合生产使用,8B版本在低延迟的简单任务中表现令人惊讶。
Mistral Large和Mixtral 8x22B是欧洲选项,在西班牙语和葡萄牙语方面表现出色,这对拉美市场至关重要。阿里巴巴的Qwen 2.5以其多语言能力和有限硬件上的效率让所有人惊叹。DeepSeek V3则证明了用更高效的架构可以实现前沿级别的性能。
关键点是:对于80%的企业用例——不需要复杂的前沿推理——这些模型绰绰有余。而且您可以在自己的基础设施上运行它们,无需按token付费。
80%的企业用例不需要前沿模型。Llama 3.1和Mistral等开源模型在摘要、分类和实体提取等任务上已经与GPT-4竞争。
真实成本对比:API vs 本地部署
让我们用一个真实案例来算算账。一家拥有150名员工的金融服务公司,使用LLM来分析法律文件、生成合规报告和辅助客户服务。
使用外部API(GPT-4o):他们每天处理大约200万个输入token和50万个输出token。按照当前OpenAI价格,约为每天25美元输入和7.50美元输出。大约每月975美元。听起来很便宜,对吧?但加上:每月200美元的编排工具,150美元的外部日志和监控,以及可变延迟影响用户体验的隐性成本。真实总计:约每月1,400美元。
使用本地部署(Llama 3.1 70B在2块NVIDIA A100上):GPU租赁成本约每月3,500美元。加上500美元的支持基础设施(网络、存储、电力)和300美元的维护。总计:约每月4,300美元。但这个成本是固定的——无论你处理200万还是2000万token都一样。
盈亏平衡点大约在每天600-800万token。如果你的公司打算扩大AI使用量(他们都会的),本地部署在6-12个月内会变得更便宜。此外,你消除了对不事先通知就变价的依赖——OpenAI已经多次调价了。
还有第三个成本没人写进电子表格:数据事件的成本。通过外部API处理的客户数据泄露可能会导致数百万的罚款和声誉损失。本地部署大大降低了这一风险。
API和本地部署的盈亏平衡点在每天600-800万token。如果你的公司打算扩大AI使用量,本地部署在6-12个月内会变得更便宜。
成本对比:外部API vs 本地部署
外部API(GPT-4o)
约每月1,400美元 — 按token变动成本,可变延迟,依赖供应商定价
本地部署(Llama 3.1 70B)
约每月4,300美元 — 固定成本不受量级影响,无token限制,完全控制
盈亏平衡
每天600-800万token — 超过此量级,本地部署更经济
隐性成本
外部API数据事件:数百万罚款 + 声誉损失
行业用例:本地部署在哪里不可或缺
金融科技和银行:该地区的银行和金融科技公司已经在使用LLM进行信用风险分析、实时欺诈检测和自动化监管报告。阿根廷一家中型银行实施了Llama 3本地部署用于信用申请分析,将评估时间从48小时缩短至15分钟,处理来自BCRA、Veraz和内部文件的数据,一切都不离开其网络。监管机构正是因为数据从未离开安全边界而批准了它。
医疗健康:医院和医疗保险公司处理包含极度敏感数据的病历、化验结果和医学影像。乌拉圭一家诊所网络实施了Mistral来生成病历摘要和药物相互作用提醒。所有内容都运行在他们数据中心内的专用集群上,符合当地健康数据保护法律。
法律:律师事务所和企业法务部门处理合同、诉讼和机密文件。布宜诺斯艾利斯一家大型律所使用Llama 3来审查合同和检测问题条款。他们每月处理超过500份合同,没有一个字节离开他们的基础设施。
能源和矿业:在连接不稳定的偏远地区运营的公司。本地部署保证即使互联网连接中断,模型也能继续运行。
技术栈:你真正需要什么
让我们具体谈谈技术栈。要在生产环境中部署Llama 3.1 70B,你至少需要2块NVIDIA A100 80GB或等效的(H100更好但更贵,在该地区也更难获取)。对于8B模型,一块A10G甚至RTX 4090就足够了。
在推理层,我们使用vLLM作为推理服务器——它是生产环境中服务LLM的事实标准。它支持连续批处理、用于高效内存使用的PagedAttention,并且与OpenAI API兼容,这使得迁移更容易。备选方案是HuggingFace的TGI,同样可靠。
编排方面,如果你需要RAG(检索增强生成),使用LangChain或LlamaIndex,这是最常见的企业用例。向量存储可以是Qdrant、Weaviate,或者如果你已经使用PostgreSQL则用pgvector。
监控使用Prometheus + Grafana来追踪推理指标(延迟、吞吐量、GPU利用率、队列深度)。LangSmith或Langfuse用于LLM链路可观测性——追踪、质量评估、幻觉检测。
所有这些都运行在Kubernetes(EKS、GKE或本地k3s)上,使用我们维护和版本控制的Helm charts。内部团队收到完整的文档和培训来操作集群。
本地LLM技术栈
硬件
2块NVIDIA A100 80GB(或H100)— 用于推理的专用GPU
推理
vLLM — 支持连续批处理、PagedAttention、兼容OpenAI API的服务器
编排 + RAG
LangChain / LlamaIndex + 向量存储(Qdrant、Weaviate或pgvector)
可观测性
Prometheus + Grafana(GPU指标)+ LangSmith/Langfuse(LLM追踪)
平台
Kubernetes(EKS、GKE或k3s),使用版本化的Helm charts
本地部署不合理的情况
我会直说:对于很多公司来说,本地部署是个坏主意。而我们工作的一部分就是在适用时告诉你这一点。
如果你的公司不到50人且不在受监管行业,外部API几乎总是最佳选择。基础设施成本、维护开销和你失去的迭代速度不值得。使用GPT-4o或Claude通过它们的API,实施基本的DLP(数据泄露防护)控制,就可以了。
如果你的用例是实验性的——你在测试AI是否能改善某个流程但还没有真实量级——从API开始。验证用例,衡量ROI,当你确定它有效且量级合理时,再迁移到本地部署。
如果你没有基础设施团队(哪怕一个人)能够监控部署,不要在没有支持合同的情况下走本地部署。模型需要更新,GPU需要监控,管线需要维护。
如果你的用例持续需要最新的前沿模型,本地部署也不合理。如果你总是需要GPT或Claude一发布就用最新版本,本地部署会让你总是慢一步。但说实话:大多数企业用例不需要前沿模型。
混合路径:两全其美
现实是,我们大多数客户最终采用了混合架构。不是全部本地或全部API——而是基于数据类型和用例的智能组合。
我们最常实施的模式:敏感数据(客户信息、金融数据、病历)专门用本地模型处理。非敏感数据(营销内容、公开趋势分析、通用内部文件生成)走外部API,那里延迟更低、模型更强大。
这需要一个智能路由器,按敏感性分类请求并将其定向到适当的模型。听起来复杂,但有好的网关架构,一周实施就能搞定。
好处很明确:你在重要的地方合规,在可以的地方利用闭源模型的能力,并优化成本。我们保险行业的一个客户通过这种方法将总AI支出减少了40%,同时改善了合规状况。
混合架构是最被采用的模式:敏感数据走本地模型,非敏感数据走外部API。智能路由器分类并定向每个请求。
混合架构:智能请求路由
传入请求
用户或系统生成涉及数据的查询
敏感性分类器
网关分析内容并确定是否包含受监管数据
敏感路由 → 本地LLM
金融、临床或个人数据在本地处理(Llama 3.1)
非敏感路由 → 外部API
营销内容、公开分析走GPT-4o或Claude
统一响应
结果交付给用户,无论由哪个模型产生
如何开始:我们在Orionis遵循的流程
如果你正在评估走本地路线,以下是我们与每位客户遵循的流程。这不是销售话术——而是我们实际使用的方法论。
第1-2周:诊断。我们审计你当前的数据流,识别哪些信息受监管,梳理现有和潜在的AI用例,并评估你的基础设施。我们交付一份带有明确建议的可行性文件。
第3-4周:概念验证。我们在暂存环境中用匿名化数据搭建一个部署。我们用你的真实用例测试选定的模型,并衡量性能、延迟和响应质量,与你目前使用的API进行对比。
第5-8周:生产部署。我们配置完整栈——推理、RAG(如适用)、监控、告警、备份和安全策略。我们通过兼容OpenAI的API与你现有系统集成。
第9-12周:交接和稳定化。我们培训你的团队,记录所有内容,并在系统在生产中稳定时提供积极支持。
部署后,我们提供持续支持合同,包括模型更新、主动监控和新用例咨询。但重要的是,如果你决定和我们分开,你拥有自主运营所需的一切。代码、配置和知识都是你的。
本地部署实施流程
阶段1:诊断(第1-2周)
数据流审计、基础设施评估、可行性文件
阶段2:概念验证(第3-4周)
暂存环境部署、匿名化数据测试、与当前API的基准对比
阶段3:生产(第5-8周)
完整栈:推理、RAG、监控、告警、系统集成
阶段4:交接(第9-12周)
团队培训、文档、积极支持、运营自主
你应该问的问题
问题不是'我应该走本地部署吗?'正确的问题是:'当我把数据发送到外部API时,我的数据发生了什么,我能接受那个答案吗?'
如果答案是'我不确定',你需要调查。如果答案是'我承受不了那个风险',你需要一个计划。如果答案是'我的监管机构会问我这个问题',你需要现在就行动。
开源模型已经达到了使中型企业本地部署变得可行的成熟度。硬件可获取。技术栈成熟。法规只会越来越严格。现在行动的公司将拥有真正的竞争优势——不仅在合规方面,还在定制和控制AI模型的能力方面。
如果你想评估你的具体情况,请写信至nihao@orionis.consulting。我们提供免费的初始评估,诚实地告诉你本地部署是否适合你的公司,还是外部API更好。我们的承诺是给你最好的建议,即使这意味着我们不一起合作。