这次 DeepSeek V4,我觉得最值得盯的地方,已经不只是模型本身了。
4 月 24 日,DeepSeek V4 预览版发布。公开资料显示,V4 分为 Pro 和 Flash 两个版本,V4-Pro 是 1.6T 总参数、49B 激活参数,V4-Flash 是 284B 总参数、13B 激活参数,两个版本都支持 100 万 token 上下文。这样的参数放出来,当然会引来一轮讨论。大模型圈子这几年已经习惯了,谁家模型一发,大家先看参数、看榜单、看价格,再去看有没有开源。
但这次,我反而更关心另一张表。
据公开行业报道,在 DeepSeek V4 发布同一天,华为昇腾、寒武纪、海光信息、摩尔线程、沐曦股份、百度昆仑芯、阿里平头哥、天数智芯等八家国产 AI 芯片厂商,集体完成了全链路适配与性能优化。新浪转载的芯师爷文章也用了类似表述,把这件事称为“8 家国产芯无缝衔接 DeepSeek-V4”。
这个细节很重。
以前我们聊国产 AI 算力,经常会落到一个有点尴尬的问题上:卡有没有,当然有;参数表好不好看,也能做得很好看。但模型真正发布之后,能不能第一时间跑起来,能不能跑稳,能不能让开发者少掉坑,这才是机房里最真实的考题。
做过工程的人都知道,模型适配从来不是把模型文件下载下来,换个设备跑一下那么简单。尤其是 DeepSeek V4 这种 MoE 大模型,里面牵扯到算子、精度、显存、通信、并行策略、推理框架、编译器、部署工具。任何一个环节卡住,最后都会变成客户眼里的延迟、报错、成本失控,或者上线时间一拖再拖。
所以这一次,真正值得看的地方,是国产芯片厂商开始在模型发布当天集体跟上。过去更多是“你先发布,我再慢慢适配”。这次有了 Day 0 的味道。这个变化听起来像技术细节,放到产业里看,其实是节奏变了。
寒武纪的动作比较典型。界面新闻报道提到,寒武纪基于自研 NeuWare 软件生态与 vLLM 框架,完成了 DeepSeek V4 的 Day 0 适配,并同步开源适配代码;针对 V4 的新结构,还通过 Torch-MLU-Ops、BangC 等方式,对 Compressor、mHC、稀疏 Attention、GroupGemm 等热点模块做了专项加速。
这里面有个很现实的产业信号:国产 AI 芯片厂商不再只展示“我这颗卡能跑多少算力”,开始把注意力放到模型真实部署里。你要支持 vLLM,要处理 MoE,要优化热点算子,要和开源框架接起来,要让企业客户拿到之后能部署。这些活不性感,也很难写成发布会金句,但它们才是国产算力真正要补的课。
华为昇腾这边,也被外媒放在了更大的背景里看。路透报道说,DeepSeek V4 已经适配华为昇腾芯片,并把这件事视作中国减少对海外 AI 技术依赖的一步。另一篇报道提到,DeepSeek V4-Pro 针对华为芯片技术做了优化,V4 系列也更适合智能体任务,因为这类任务对计算资源的要求更高。
我更愿意把这件事理解成一个分水岭。
过去中国 AI 产业最热闹的地方在模型层。今天谁开源,明天谁降价,后天谁刷新榜单。媒体容易写,投资人容易看,用户也容易感知。可真正到了产业现场,模型只是开始。客户要的是能不能部署到自己的业务里,能不能稳定响应,能不能控制成本,能不能持续扩容,出了问题有没有人兜得住。
很多年前做云计算、做数据库、做操作系统的人,对这种感觉会很熟。前台讲能力,后台拼工程。前台看起来差不多,后台一跑压力测试,差距就出来了。AI 算力也是一样。芯片只是最显眼的一层,下面还有驱动、编译器、通信库、推理引擎,上面还有模型适配、业务接口、运维体系。真正的难点,常常藏在这些夹缝里。
这也是为什么我觉得“八家国产 AI 芯片厂商同日适配”这个背景要放大看。
它说明 DeepSeek V4 已经不只是一个模型公司的技术更新,而是把国产 AI 基础设施拉到了一次集体考试里。华为昇腾代表的是国内最强势的 AI 算力底座之一;寒武纪、海光信息、摩尔线程、沐曦股份,代表不同技术路线的国产芯片公司;百度昆仑芯、阿里平头哥背后则有大厂业务场景和云端部署经验;天数智芯也在国产 GPU 路线上持续推进。它们在同一天围绕同一个模型动作起来,本身就是一个行业信号。
这件事当然不能吹过头。
能适配,不代表立刻全面替代。能跑,不代表跑得比英伟达更稳、更便宜、更通用。CUDA 十几年攒下来的开发者习惯、库、工具、调试经验,不会因为一次发布会就消失。很多工程师到今天还会很诚实地说,遇到复杂问题,英伟达那套东西仍然最省心。这话不刺耳,产业里本来就该承认差距。
但差距是一回事,路开始修起来是另一回事。
以前国产算力的问题,有点像车造出来了,但路还不平,导航也不准,维修站也少。客户愿意试,但试完之后心里打鼓。现在模型一发布,芯片厂商、软件栈团队、推理框架、开源社区一起往前跟,至少说明这条路上开始有人连续施工了。路面未必马上平整,可车流一旦起来,修路速度就会变快。
这背后还有一个更大的压力源:供应链不确定性。
美国对高端 AI 芯片的出口限制这几年反复变化,对中国大厂来说,最麻烦的不是贵一点,而是不确定。你今天能拿到,明天还能不能拿到?今年能扩容,明年政策怎么变?一个大模型团队做长期算力规划,不可能只盯当下价格,还要看供应稳定性、交付周期、替代方案和运维成本。
所以企业买算力的思路也在变。
过去很多人问的是:这张卡峰值多高?显存多大?单价多少?现在越来越多客户会追问:一套集群能不能稳定跑半年?模型更新后多久能适配?推理成本能不能压下来?多卡通信效率怎么样?出了故障谁来定位?一年后扩容会不会推倒重来?
这些问题听起来很土,但土问题最接近真需求。
DeepSeek V4 这次还有一个值得注意的地方,是推理侧的分量变重了。100 万 token 上下文、多版本部署、智能体任务,这些东西都会把推理压力放大。模型训练当然重要,但对于大多数企业客户来说,真正每天发生的成本,是推理。每一次调用、每一个并发、每一段长文本、每一次 agent 循环,都会消耗算力。谁能把推理跑稳、跑便宜、跑出规模,谁就更接近产业现场。
这也是国产芯片厂商这次集体适配的真正价值。它不是为了证明某颗芯片纸面性能强,而是在证明:当一个主流开源模型发布时,国产算力能不能尽快变成可部署方案。这个能力一旦反复出现,客户信心就会一点点建立起来。
中美 AI 的技术体系,也会在这种过程中慢慢分开。
美国那边继续围绕 GPU、CUDA、主流云厂商、前沿闭源模型和全球工具链往前跑。中国这边,则开始围绕国产模型、国产芯片、CANN、NeuWare、FlagOS、vLLM 适配、本土云和行业场景一点点补。两边仍然会看彼此的论文,仍然会借开源代码,也仍然会互相学习工程经验。但到了真正部署的时候,使用的芯片、软件栈、运维方式、供应体系,会越来越不一样。
这不是某一天突然发生的断裂,而是每天一点点分岔。
DeepSeek V4 发布当天,八家国产 AI 芯片厂商集体完成适配,我觉得它的意义就在这里。它让我们看到,国产 AI 算力正在从“单点突破”走向“同步响应”。以前是模型先跑,芯片慢慢追;现在至少在一些关键模型上,模型发布和芯片适配开始同场起跑。
当然,后面还有很多硬仗。
Day 0 适配之后,要看真实客户部署;部署之后,要看持续稳定性;稳定之后,要看成本;成本下来之后,还要看开发者愿不愿意长期使用。产业里最怕只热闹三天。真正有价值的,是半年后、一年后,工程师还在用,客户还在复购,模型更新还能继续跟上。
所以这次 DeepSeek V4,我不太想把它写成一个简单的“国产替代胜利”。这种说法太轻了,也太快了。
我更愿意说,它像一个现场信号。
模型公司把新模型推出来,国产芯片厂商同一天集体响应,软件栈团队开始处理那些最麻烦的算子和部署问题,企业客户开始重新评估算力采购标准。热闹在前台,胜负在后台。行业里真正拉开差距的,往往不是发布会上的参数,而是机房里那些没人愿意细讲的工程细节。
DeepSeek V4 这次把这些细节推到了台前。
这才是最值得看的地方。
文|龚海瀚