你等的DeepSeek,早已变了

robot
Đang tạo bản tóm tắt

null

文 | 世界模型工场

现在中国互联网只剩下一个问号:DeepSeek V4,到底发不发?

过去一年多,全球模型竞争早已进入拼刺刀模式。

OpenAI、Anthropic、Google等巨头基本保持2-3个月甚至1个月一次大迭代,新版本快速推向市场验证、迭代再验证。

而DeepSeek在过去15个月,大版本更新放缓,V4多次延期,节奏明显落后,已从行业领跑者变成了慢半拍的那个。

等待的焦虑演变成猜疑的漩涡。

4月初,有媒体突然放出风声:V4可能在未来几周发布,但不要对DeepSeek V4有太高期待。

为什么期待已久的发布,要提前打预防针?

这一年,DeepSeek到底发生了什么?

国产化的重任

真相或许藏在一条被大多数人忽略的新闻里。

2025年1月,路透社报道透露了一个细节:Deepseek R1发布后,有关部门鼓励DeepSeek采用华为昇腾处理器,而非继续使用英伟达。

"鼓励"二字,在当时的语境下,重量远超字面意思。

DeepSeek不是普通的创业公司,它是中国AI打破美国技术封锁的第一个成功样本。

这种象征意义,让DeepSeek迅速从一家技术公司,变成了国家自主可控战略棋局上的关键棋子。

紧接着,2月份梁文峰参加了那场万众瞩目的民营企业座谈会。

他被安排坐在第一排,和马化腾、任正非、雷军等科技大佬,并肩成为新质生产力的国家队代表。

政策导向的齿轮,由此开始转动。

据外媒报道,DeepSeek在2025年初确实尝试过用华为昇腾910C芯片训练下一代模型。

但过程遭遇多重技术障碍:训练稳定性不足,大规模分布式场景下频繁崩溃,芯片间通信速度未达预期。

华为派遣工程师团队前往DeepSeek办公地点提供现场支持,最终仍未能解决训练阶段的适配问题。

结果是妥协性的,DeepSeek训练阶段继续切回英伟达GPU,昇腾芯片仅用于推理环节。

这意味着,至少在训练这一核心环节,DeepSeek用了近一年时间在试错。

但适配工作并未停止。2026年,V4版本传出新动向。

据爆料,DeepSeek没有提前给英伟达开放测试权限,反而优先把预发布版本交给华为新一代昇腾950PR芯片做适配。

同时为分散风险,还同步适配了寒武纪芯片。

但技术挑战依然显著。

据媒体报道,这次的目标是从底层代码层面完成迁移,从英伟达CUDA生态全面迁移至华为CANN框架,实现训练与推理全链条的国产化替代。

据接近项目的人士透露,适配工作的核心难点在于精度对齐,确保模型在不同硬件生态下输出一致,这涉及大量底层代码调整。

时间成本由此产生。

当全球主流厂商保持2-3个月模型迭代节奏时,DeepSeek却越来越慢,期间可能有相当大比例的技术资源投入了国产芯片适配。

毕竟国产芯片与英伟达在代际性能、生态成熟度、工具链完备性上确实存在差距,模型适配过程耗时巨大。

这与DeepSeek当初纯粹追求模型性能提升的路径,形成明显分野。

产业链层面的联动也在同步发生。

2026年初,市场传出阿里、字节、腾讯已向华为下单数十万颗昇腾950PR芯片。

一种合理的猜测是:头部云厂商在等待DeepSeek V4的验证结果,以评估国产芯片在大规模AI训练中的实际可用性。

若V4成功跑通,华为950PR将从技术样品转化为可商用产品。若未能达到预期,相当于为行业探明了当前国产芯片的能力边界。

考虑到梁文锋对模型发布的要求一贯极高,达不到预期绝不发的标准,V4终于即将亮相,很可能在推理侧已通过效果测试。

如果真的验证成功,这将是DeepSeek乃至整个中国AI转向自主可控的关键一步。

身份转型的代价

DeepSeek主动承担国产算力生态验证的重任,这种选择让它更像一家国家使命型公司,而非纯粹逐利的市场化玩家。

但转型的代价显而易见:短期节奏放缓、人才压力增大、竞争力暂缓。

根据2026年3-4月多家独立评测和社区数据,DeepSeek在第三方基准测试中,代码生成能力已被Claude 4系列(Opus 4.6 / Sonnet 4.6)显著超越。

DeepSeek的多模态处理能力也主要局限于文本+图像,远落后于Claude和GPT在图像分析、计算机使用和视频理解上的表现。

进入2026年,DeepSeek将产品重点转向更具挑战性的Agent系统工程。

根据当前社区反馈,DeepSeek在代码Agent和中文搜索Agent领域已接近第一梯队,但在多工具协同、长链路任务执行以及真实环境鲁棒性上,仍与OpenAI、Google等国际顶尖模型存在明显的系统工程差距。

这种差距,不一定是技术能力的衰退,更像是在市场竞争与国家战略之间做出权衡后的结果。

组织层面的代价同样显性。

2025年下半年起,DeepSeek核心团队成员开始出现松动。

据晚点LatePost确认,王炳宣(第一代大模型核心作者)、郭达雅(R1核心作者)、魏浩然(OCR负责人)、阮翀(多模态负责人)相继离职。

这些名字背后,是DeepSeek从V1到R1的技术积淀。

流失的动因复杂,但薪酬体系的相对劣势是显性因素。

猎头透露,竞争对手开出的条件是DeepSeek的"两到三倍",部分大厂直接给出八位数总包。

DeepSeek作为未外部融资的初创公司(母公司为幻方量化),薪酬虽绝对值不低,但无法匹配字节、阿里、腾讯等市场化巨头的股权激励和估值溢价。

梁文锋已开始推动公司估值工作,明确期权定价,给团队更多确定感。

但在智谱、MiniMax等同行上市、股价高涨的背景下,留住顶尖人才的压力依然不小。

如今的DeepSeek正在陷入一种身份的模糊。

它仍然需要商业化,仍然需要留住人才,但同时它又被赋予了国产化适配的期待。

这种双重身份带来的冲突,或许正是DeepSeek这一年越来越慢的深层逻辑。

因此,市场对V4的性能预期也在下调。

它未必会成为又一次刷屏的王炸模型,但可能是一个产业意义上的里程碑,证明中国前沿模型可以在国产硬件生态上达到可用水平。

V4的答卷,对于中国AI产业的长期走向可能更为重要。

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim