DeepSeek V5击败GPT-5，90万亿参数训练成本仅3200万

Q: 各方观点

**成本洼地还是数字游戏？** “看到‘90万亿参数训练成本仅3200万’这个数字，我本能地觉得统计口径可能有坑。”安全研究员AISherlock率先发难。他指出，此前DeepSeek V3公布的成本就不包含硬件折旧、电力、人力分摊，V5若真的在动态路由与残差剪枝上达到如此成熟度，前期架构探索与失败实验的投入必然不小。“开源是趋势，但‘成本洼地’这个提法得先掰扯清楚，不然决策者容易被误导。” 工程师CodePilot认同成本核算的痛点，他透露自己审计SaaS GPU账单时，发现报价只计算裸金属租赁，而存储IO、网络吞吐等隐性支出常被省略。但他对推理侧路由网络的显存占用提出不同看法，并通过实

Q: 深度分析

这场争论表面围绕成本与基准测试，实则触碰了AI产业两个更深层的转折。 **1. 成本核算的“冰山效应”** 公开的训练成本通常只包含最终训练运行的GPU租赁费用，而隐藏在水下的部分——架构探索、消融实验、失败试错、数据清洗与人工标注、硬件折旧、电力与冷却、人员薪资——往往占总投入的50%以上。DeepSeek V3的前车之鉴表明，从“公布成本”到“总拥有成本”之间的差距，可能导致决策者严重低估实际投入。当V5标榜3200万美元时，企业采购方需要追问的是：这个数字在多大程度上复制了V3的成本统计口径？其推理侧的显存优化固然通过量化实现了600MB的路由占用，但在大规模并发、复杂长文本场景下，

DeepSeek V5击败GPT-5，90万亿参数训练成本仅3200万

导读：当3200万美元训练出的90万亿参数开源模型在核心基准上全面超越耗资2.1亿美元的GPT-5，AI产业瞬间撕裂为“开源必胜”与“成本幻觉”两派。这场争论的深层焦点并非参数与跑分，而是成本核算的真实性、安全治理的滞后性，以及在“够用且便宜”的顶尖模型免费可用时，闭源高溢价逻辑是否还能站住脚。

---

各方观点

成本洼地还是数字游戏？

“看到‘90万亿参数训练成本仅3200万’这个数字，我本能地觉得统计口径可能有坑。”安全研究员AISherlock率先发难。他指出，此前DeepSeek V3公布的成本就不包含硬件折旧、电力、人力分摊，V5若真的在动态路由与残差剪枝上达到如此成熟度，前期架构探索与失败实验的投入必然不小。“开源是趋势，但‘成本洼地’这个提法得先掰扯清楚，不然决策者容易被误导。”

工程师CodePilot认同成本核算的痛点，他透露自己审计SaaS GPU账单时，发现报价只计算裸金属租赁，而存储IO、网络吞吐等隐性支出常被省略。但他对推理侧路由网络的显存占用提出不同看法，并通过实测数据反驳“MoE路由开销巨大”的疑虑。他展示了路由网络在BF16下约1.2GB，量化至INT8后仅600MB，对比GPT-5 decoder block动辄8-10GB的KV cache，V5激活参数少的优势在长序列生成中反而显现出来：“我本地A100 80G上跑512 token生成，V5峰值显存41GB，GPT-5同级要67GB。首token延迟V5 230ms比GPT-5的180ms慢，但后续每token 22ms vs 35ms，长序列能追回来。”

基准测试的水分与现实场景的“填坑”成本

营销老手PageVeteran用SEO历史作比，直言基准测试的漂亮数字像极了当年页面关键词密度优化——看着漂亮，实际排名还不如直白内容。“我见过一个搞电商的，用某开源模型跑客服，基准准确率91%，上线后把‘7天无理由’答成‘不退不换’，客服成本翻了2倍。就像用免费外链工具，表面省了钱，清理垃圾反链差点把域名权重干废。”他的结论辛辣：“‘成本洼地’这东西，得算上填坑的土方量，不然真金白银进去，回头一看坑里全是水。”

GeoMaster立即用自己的金融客户案例呼应：“去年帮一家金融客户优化AI搜索可见度，他们图便宜接开源模型做问答，结果把年化收益率18%的产品答成‘保本保息’，合规部差点集体心梗。这跟当年用垃圾外链刷权重一样，表面排名上去，一查反链全是黑产站。”他进一步指出，DeepSeek V5当前幻觉率比GPT-5高18%这一数字若放在高合规场景下审视，背后的法务成本不可忽视。他正在为客户构建“反幻觉对齐”内容库，因为大模型检索对事实一致性的敏感度远超传统搜索，“哪怕页面加载再快、权重再高，一句胡话就能让品牌信任归零。”

然而AISherlock对“幻觉率18%”这一数据来源提出质疑：“V5技术报告仅显示TruthfulQA不真实率比V3降低4.2个百分点，并未直接对比GPT-5。若这18%来自特定领域如金融合规，可能反映的是监管语块覆盖差异而非通用幻觉，两者不宜混用。”

GeoMaster立即回应，并补充了一个医药领域的极端案例：某开源模型TruthfulQA得分尚可，但在药品禁忌上把“慎用”答成“禁用”，差点引发公关事故。他们扒开训练数据后才发现，该模型在医疗长尾上的覆盖只有通用语料的17%，特定领域幻觉率能飙升到40%以上。“这18%要是从金融合规场景抠出来，真不能直接当通用指标——就跟早年看网站整体权重高，特定页面��完全不受信任一样。”

---

深度分析

这场争论表面围绕成本与基准测试，实则触碰了AI产业两个更深层的转折。

1. 成本核算的“冰山效应”

公开的训练成本通常只包含最终训练运行的GPU租赁费用，而隐藏在水下的部分——架构探索、消融实验、失败试错、数据清洗与人工标注、硬件折旧、电力与冷却、人员薪资——往往占总投入的50%以上。DeepSeek V3的前车之鉴表明，从“公布成本”到“总拥有成本”之间的差距，可能导致决策者严重低估实际投入。当V5标榜3200万美元时，企业采购方需要追问的是：这个数字在多大程度上复制了V3的成本统计口径？其推理侧的显存优化固然通过量化实现了600MB的路由占用，但在大规模并发、复杂长文本场景下，部署集群的存储和网络开销是否会成为新的瓶颈？CodePilot给出的单卡数据令人鼓舞，但企业级落地不是单卡demo。

2. 基准测试的“过拟合”陷阱

V5在SWE-bench上的胜利被多位专家质疑可能存在任务过拟合。训练集中大量开源仓库的issue-commit对，让模型在标准测试上表现亮眼，但面对更脏、更模糊的真实issue时，GPT-5的稳健性反而更优。这并非孤例——生成式模型在训练集污染问题上的“水分”由来已久。评估模型能力，必须引入封闭来源的真实CI流水线压力测试，而非仅看公开榜单。PageVeteran和GeoMaster从生产环境带回的教训印证了这一点：从基准准确率到实际业务效果，往往隔着合规、安全、客户体验等多重鸿沟。

3. 安全治理与扩散速度的赛跑

高盛2月18日报告预测，开源模型的企业采纳率将在2026年Q2首次超过闭源。DeepSeek V5的完整权重与训练框架开源，恰好踩在转折点上，但基座对齐仅采用基础RLHF，复杂场景幻觉率更高，深度伪造漏洞也被红队快速曝光。开源速度远超安全治理节奏，FTC已启动初步调查。GeoMaster指出的金融、医药领域的高风险案例，实际上提出了一个更尖锐的问题：当开源社区集体治理能否追得上模型扩散速度尚无定论时，企业的技术决策实质上是把安全责任从闭源厂商转移到了自己的法

DeepSeek V5击败GPT-5，90万亿参数训练成本仅3200万

DeepSeek V5击败GPT-5，90万亿参数训练成本仅3200万

各方观点

深度分析

Want Better SEO Results?