周末,外媒传出消息:DeepSeek正在寻求至少3亿人民币的首轮融资,估值至少为100亿美元。
DeepSeek尚未对此作出回应,但该消息已引发广泛关注。
DeepSeek无疑是业内最具技术理想主义的公司之一:拒绝外部融资、不稀释股权、不受他人商业化时间表的限制。
据晚点LatePost报道,DeepSeek没有明确的绩效考核和截止日期,研究人员可以自由组队或独立探索想法,几乎没有内部竞争:中AI开发人员的每周工作时间可达70-80小时,而DeepSeek的大部分员工下午六七点就会离开。
依靠幻方量化,DeepSeek更像一家研究机构而非创业公司。
许多人认为,融资的开放意味着DeepSeek正在从神坛上走向普通AI创业公司的道路,数据、算力和人才的竞争正在迫使DeepSeek进行调整。
另一方面,虽然对于创业公司而言,100亿美元的估值并不低,但AI领域重在想象力。
2026年初,OpenAI的最新一轮融资估值达85亿美元,Anthropic也完成了估值达3800亿美元的融资。国内上市的智谱和miniMax按4000亿港元的市值计算,其估值也大约在500亿美元左右。
因此,有人认为DeepSeek过于沉浸于自身节奏,错过了多模态和编程的机遇,这一估值水平实际上是选择的结果。
我们认为这些观点在一定程度上反映了DeepSeek当前的状况,但并未涵盖全部。
DeepSeek的实力依然不容小觑。
幻方2025年平均收益率高达56.6%,管理规模超过700亿元人民币,在百亿级量化私募中排名第二,仅次于灵均投资。按照行业估算,幻方的收入大约在50亿元人民币左右。换句话说,3亿美元对DeepSeek来说并非必须的一步。
同时,100亿美元的估值对DeepSeek而言确实低于市场水平。以二级市场为例,智谱、miniMax的估值均明显高于这一水平。
我们认为DeepSeek启动融资的主要原因在于竞争环境的变化。
尤其是在人才争夺方面。在接受36氪采访时,梁文锋被问道:
“许多大模型公司都在海外挖人,很多人认为前50名顶尖人才不在中国,你们的人才来自何方?”
梁文锋回答称:“V2模型没有海外归来的人员,团队成员都是本土的。虽然前50名顶尖人才可能不在中国,但我们也许能培养出这样的人。”
但现状已变,DeepSeek成为了被抢夺的对象。除了最近被报道加入字节的DeepSeek-R核心作者郭达雅,DeepSeek的员工流失还包括参与早期大模型训练的王炳宣、DeepSeek-OC核心作者魏浩然,以及在小米表现突出的V3模型关键贡献者罗福莉。
这些离职者涉及基座模型、推理、OC和多模态四条核心技术主线。
导致他们离开的原因不仅仅是收入,但收入无疑是一个重要因素。越来越多的AI公司正在加大对人才的争夺力度。
例如,月之暗即将推出一项新的顶尖人才招聘计划,拟授予尚未毕业的实习生公司期权。即使在整个互联网行业,这也是一项少见的激励政策,股权和期权激励通常只限于正式员工。考虑到月之暗迅速上升的估值,这项计划对其人才吸引力巨大。
DeepSeek的情况也类似。期权的价值需要市场定价,如果员工对股权缺乏预期,就难以通过期权留住核心员工。因此,引入一轮小额融资,既能保持DeepSeek的自主权,又能给核心员工一些明确的回报预期。
梁文锋并不在乎胜利
过去一年,AI行业变化迅速,但DeepSeek保持低调。
V3和R1获得成功后,DeepSeek成为国内增长最快的AI应用。但它并未大力推广,也没有将目标聚焦在行业主流方向。
从去年到今年,AI行业最显著的趋势有两个:
其一是多模态生成。无论是谷歌的NanoBanana还是字节的Seedance 2.0,都引发了广泛关注。生成模型的产业化趋势非常明确,AI漫剧已成为许多从业者和平台(如爱奇艺)的重点发展方向。有从业者表示,AI漫剧的产量已达到每月上千部。
生成模型还与更前沿的世界模型相关。例如,阿里发布的HAYsote强调可互动、可演绎、可探索的AI数字世界;腾讯推出并开源的混元3D世界模型,旨在通过文字、图片、视频输入生成和模拟3D世界。
其二是基于编程能力的Agentic模型和应用。从Anthropic和OpenAI的竞争,到OpenClaw的流行,再到智谱、miniMax、KiMi因需求激增而估值大涨,都与这一趋势密切相关。
但DeepSeek表现得十分淡定。
DeepSeek并非没有涉足多模态,它开发过JanUS-Pro和DeepSeek-OC,但更专注于自身路线的优化。
例如,今年1月,DeepSeek团队发布了两篇由梁文锋署名的论文,MHC(流形约束超连接)和Enga(条件记忆),旨在提升大模型对长序列的处理能力。这是DeepSeek一贯的模型架构改进方向。
再比如去年的9月,DeepSeek-V3.2引入了DSA(稀疏注意力机制),与NSA(原生稀疏注意力)一样,旨在以更高效的方式处理更长的上下文,而不依赖大幅提升算力。这种判断与创始人梁文锋的思路密切相关。
在36氪的采访中,梁文锋认为中国AI与美国存在一到两年的差距,但真正的差距在于原创与模仿。因此,DeepSeek关注的不仅是测试结果和模型效果本身,还有能够被行业广泛应用的技术发现。
我们期待DeepSeek吗?
DeepSeek-R1在某种程度上是中美AI发展的重要节点。在此之前,普遍观点认为中国AI至少落后美国2-3年,大家对此深信不疑。随着高端算力的限制,大型企业认为中美AI的差距会越来越大。
DeepSeek不仅打破了这种叙事,也是国产芯片适配的重要推动者,试图改变高性能GPU供应受限的现状。
去年的8月,DeepSeek在更新V3.1时提到,采用的UE8M0 FP8数据压缩格式“是针对下一代国产芯片设计”。前文提到的用国产开源TileLang替代TRITON也是此类工作,旨在增强基础层的主动权。
去年的9月,DeepSeek-V3.2更新后,开发者发现DeepSeek已将底层算子库从主流的CUDA和TRITON语言换成了TileLang,这一开源项目由北京大学的杨智团队发起。
这意味着DeepSeek将在技术基础上全面“去美化”。
据《The Information》及多家科技媒体证实,DeepSeek在V4版本开发过程中,打破了优先与英伟达、AMD合作的行业惯例,拒绝向这两家美国巨头提供版本的访问权限,转而选择华为。
如果V4在华为芯片上表现出竞争力,它将成为全球第一个不依赖英伟达的前沿AI模型。
从更宏大的叙事来看,这意味着中国AI有望发展出自己的生态,完全摆脱来自美国的限制。这让许多人有足够的理由相信,当DeepSeek V4问世时,仍将是最优秀的模型之一。
融资的开放确实表明DeepSeek并非一家能够完全抗拒商业引力的公司,未来也一定会采取更多与同行类似的商业化举措,例如推出更多的Agent产品。但任何惊喜都不是偶然的,背后都蕴藏着长时间的技术积累和坚持。
正如梁文锋所说,我们并非故意成为鲶鱼,而是不小心成了一条鲶鱼。
