4月17日,离4月下旬不远,DeepSeek V4的发布备受关注。昨天,该公司突然更新了DeepGE算子库,这被看作是V4发布的前兆。
不过,他们也预见到外界的反应,因此在更新后发布了一份说明,强调此次更新与DeepGE开发有关,和内部模型发布无关,暗示大家不必过多猜测,这不意味着V4即将发布。
然而,这样的声明反而引发了更多人对DeepSeek V4的好奇,因为DeepGE此次更新包含多个亮点,显然与V4大模型息息相关。
此次更新不仅支持FP8_FP4混合算子,还优化了对NVIDIA Blackwell的兼容性,架构上主要升级了Mega MoE和Hype R connection,其中Mega MoE可能会带来重大改进。
Mega MoE的优势众多,网络上已有不少解释,Gemini的分析表明V4的激活专家数量将显著高于V3的256个,可能达到数千个,这将极大提升V4的性能,同时保持灵活性,不会对算力和存储提出过高要求。
更重要的是,DeepGE这次更新还暗示了V4大模型的参数数量。网友表示单层MoE大约为25.37B,如果保持60层,V4的参数量很可能达到1.6T,最少也是48层的1.25T。
与之前传闻的1T万亿参数相比,1.6T参数意味着比预期高出60%,其性能表现令人期待。
即使1.6T未能实现,1.25T的参数量也将是当前V3的6700亿参数的两倍,依然值得期待。毕竟,如果Mega MoE技术实现数千个激活专家,这将是一次重大转变,标志着MoE架构大模型发展的重要里程碑。
