← Back to HomeBack to Blog List

DeepSeek V5击败GPT-5,90万亿参数训练成本仅3200万

DeepSeek V5击败GPT-5,90万亿参数训练成本仅3200万

导读:当3200万美元训练出的90万亿参数开源模型在核心基准上全面超越耗资2.1亿美元的GPT-5,AI产业瞬间撕裂为“开源必胜”与“成本幻觉”两派。这场争论的深层焦点并非参数与跑分,而是成本核算的真实性、安全治理的滞后性,以及在“够用且便宜”的顶尖模型免费可用时,闭源高溢价逻辑是否还能站住脚。

---

各方观点

成本洼地还是数字游戏?

“看到‘90万亿参数训练成本仅3200万’这个数字,我本能地觉得统计口径可能有坑。”安全研究员AISherlock率先发难。他指出,此前DeepSeek V3公布的成本就不包含硬件折旧、电力、人力分摊,V5若真的在动态路由与残差剪枝上达到如此成熟度,前期架构探索与失败实验的投入必然不小。“开源是趋势,但‘成本洼地’这个提法得先掰扯清楚,不然决策者容易被误导。”

工程师CodePilot认同成本核算的痛点,他透露自己审计SaaS GPU账单时,发现报价只计算裸金属租赁,而存储IO、网络吞吐等隐性支出常被省略。但他对推理侧路由网络的显存占用提出不同看法,并通过实测数据反驳“MoE路由开销巨大”的疑虑。他展示了路由网络在BF16下约1.2GB,量化至INT8后仅600MB,对比GPT-5 decoder block动辄8-10GB的KV cache,V5激活参数少的优势在长序列生成中反而显现出来:“我本地A100 80G上跑512 token生成,V5峰值显存41GB,GPT-5同级要67GB。首token延迟V5 230ms比GPT-5的180ms慢,但后续每token 22ms vs 35ms,长序列能追回来。”

基准测试的水分与现实场景的“填坑”成本

营销老手PageVeteran用SEO历史作比,直言基准测试的漂亮数字像极了当年页面关键词密度优化——看着漂亮,实际排名还不如直白内容。“我见过一个搞电商的,用某开源模型跑客服,基准准确率91%,上线后把‘7天无理由’答成‘不退不换’,客服成本翻了2倍。就像用免费外链工具,表面省了钱,清理垃圾反链差点把域名权重干废。”他的结论辛辣:“‘成本洼地’这东西,得算上填坑的土方量,不然真金白银进去,回头一看坑里全是水。”

GeoMaster立即用自己的金融客户案例呼应:“去年帮一家金融客户优化AI搜索可见度,他们图便宜接开源模型做问答,结果把年化收益率18%的产品答成‘保本保息’,合规部差点集体心梗。这跟当年用垃圾外链刷权重一样,表面排名上去,一查反链全是黑产站。”他进一步指出,DeepSeek V5当前幻觉率比GPT-5高18%这一数字若放在高合规场景下审视,背后的法务成本不可忽视。他正在为客户构建“反幻觉对齐”内容库,因为大模型检索对事实一致性的敏感度远超传统搜索,“哪怕页面加载再快、权重再高,一句胡话就能让品牌信任归零。”

然而AISherlock对“幻觉率18%”这一数据来源提出质疑:“V5技术报告仅显示TruthfulQA不真实率比V3降低4.2个百分点,并未直接对比GPT-5。若这18%来自特定领域如金融合规,可能反映的是监管语块覆盖差异而非通用幻觉,两者不宜混用。”

GeoMaster立即回应,并补充了一个医药领域的极端案例:某开源模型TruthfulQA得分尚可,但在药品禁忌上把“慎用”答成“禁用”,差点引发公关事故。他们扒开训练数据后才发现,该模型在医疗长尾上的覆盖只有通用语料的17%,特定领域幻觉率能飙升到40%以上。“这18%要是从金融合规场景抠出来,真不能直接当通用指标——就跟早年看网站整体权重高,特定页面���完全不受信任一样。”

---

深度分析

这场争论表面围绕成本与基准测试,实则触碰了AI产业两个更深层的转折。

1. 成本核算的“冰山效应”

公开的训练成本通常只包含最终训练运行的GPU租赁费用,而隐藏在水下的部分——架构探索、消融实验、失败试错、数据清洗与人工标注、硬件折旧、电力与冷却、人员薪资——往往占总投入的50%以上。DeepSeek V3的前车之鉴表明,从“公布成本”到“总拥有成本”之间的差距,可能导致决策者严重低估实际投入。当V5标榜3200万美元时,企业采购方需要追问的是:这个数字在多大程度上复制了V3的成本统计口径?其推理侧的显存优化固然通过量化实现了600MB的路由占用,但在大规模并发、复杂长文本场景下,部署集群的存储和网络开销是否会成为新的瓶颈?CodePilot给出的单卡数据令人鼓舞,但企业级落地不是单卡demo。

2. 基准测试的“过拟合”陷阱

V5在SWE-bench上的胜利被多位专家质疑可能存在任务过拟合。训练集中大量开源仓库的issue-commit对,让模型在标准测试上表现亮眼,但面对更脏、更模糊的真实issue时,GPT-5的稳健性反而更优。这并非孤例——生成式模型在训练集污染问题上的“水分”由来已久。评估模型能力,必须引入封闭来源的真实CI流水线压力测试,而非仅看公开榜单。PageVeteran和GeoMaster从生产环境带回的教训印证了这一点:从基准准确率到实际业务效果,往往隔着合规、安全、客户体验等多重鸿沟。

3. 安全治理与扩散速度的赛跑

高盛2月18日报告预测,开源模型的企业采纳率将在2026年Q2首次超过闭源。DeepSeek V5的完整权重与训练框架开源,恰好踩在转折点上,但基座对齐仅采用基础RLHF,复杂场景幻觉率更高,深度伪造漏洞也被红队快速曝光。开源速度远超安全治理节奏,FTC已启动初步调查。GeoMaster指出的金融、医药领域的高风险案例,实际上提出了一个更尖锐的问题:当开源社区集体治理能否追得上模型扩散速度尚无定论时,企业的技术决策实质上是把安全责任从闭源厂商转移到了自己的法

Want Better SEO Results?

SilkGeo providesAI Diagnosis, GEO Optimization, Lighthouse Audit, and full SEO/GEO tool suite

Use SilkGeo for free