DeepSeek V4 之后，东大和美帝AI 基础设施开始分成两套牌桌

这次 DeepSeek V4，我觉得最值得盯的地方，已经不只是模型本身了。

4 月 24 日，DeepSeek V4 预览版发布。公开资料显示，V4 分为 Pro 和 Flash 两个版本，V4-Pro 是 1.6T 总参数、49B 激活参数，V4-Flash 是 284B 总参数、13B 激活参数，两个版本都支持 100 万 token 上下文。这样的参数放出来，当然会引来一轮讨论。大模型圈子这几年已经习惯了，谁家模型一发，大家先看参数、看榜单、看价格，再去看有没有开源。

但这次，我反而更关心另一张表。

据公开行业报道，在 DeepSeek V4 发布同一天，华为昇腾、寒武纪、海光信息、摩尔线程、沐曦股份、百度昆仑芯、阿里平头哥、天数智芯等八家国产 AI 芯片厂商，集体完成了全链路适配与性能优化。新浪转载的芯师爷文章也用了类似表述，把这件事称为“8 家国产芯无缝衔接 DeepSeek-V4”。

这个细节很重。

以前我们聊国产 AI 算力，经常会落到一个有点尴尬的问题上：卡有没有，当然有；参数表好不好看，也能做得很好看。但模型真正发布之后，能不能第一时间跑起来，能不能跑稳，能不能让开发者少掉坑，这才是机房里最真实的考题。

做过工程的人都知道，模型适配从来不是把模型文件下载下来，换个设备跑一下那么简单。尤其是 DeepSeek V4 这种 MoE 大模型，里面牵扯到算子、精度、显存、通信、并行策略、推理框架、编译器、部署工具。任何一个环节卡住，最后都会变成客户眼里的延迟、报错、成本失控，或者上线时间一拖再拖。

所以这一次，真正值得看的地方，是国产芯片厂商开始在模型发布当天集体跟上。过去更多是“你先发布，我再慢慢适配”。这次有了 Day 0 的味道。这个变化听起来像技术细节，放到产业里看，其实是节奏变了。

寒武纪的动作比较典型。界面新闻报道提到，寒武纪基于自研 NeuWare 软件生态与 vLLM 框架，完成了 DeepSeek V4 的 Day 0 适配，并同步开源适配代码；针对 V4 的新结构，还通过 Torch-MLU-Ops、BangC 等方式，对 Compressor、mHC、稀疏 Attention、GroupGemm 等热点模块做了专项加速。

这里面有个很现实的产业信号：国产 AI 芯片厂商不再只展示“我这颗卡能跑多少算力”，开始把注意力放到模型真实部署里。你要支持 vLLM，要处理 MoE，要优化热点算子，要和开源框架接起来，要让企业客户拿到之后能部署。这些活不性感，也很难写成发布会金句，但它们才是国产算力真正要补的课。

华为昇腾这边，也被外媒放在了更大的背景里看。路透报道说，DeepSeek V4 已经适配华为昇腾芯片，并把这件事视作中国减少对海外 AI 技术依赖的一步。另一篇报道提到，DeepSeek V4-Pro 针对华为芯片技术做了优化，V4 系列也更适合智能体任务，因为这类任务对计算资源的要求更高。

我更愿意把这件事理解成一个分水岭。

过去中国 AI 产业最热闹的地方在模型层。今天谁开源，明天谁降价，后天谁刷新榜单。媒体容易写，投资人容易看，用户也容易感知。可真正到了产业现场，模型只是开始。客户要的是能不能部署到自己的业务里，能不能稳定响应，能不能控制成本，能不能持续扩容，出了问题有没有人兜得住。

很多年前做云计算、做数据库、做操作系统的人，对这种感觉会很熟。前台讲能力，后台拼工程。前台看起来差不多，后台一跑压力测试，差距就出来了。AI 算力也是一样。芯片只是最显眼的一层，下面还有驱动、编译器、通信库、推理引擎，上面还有模型适配、业务接口、运维体系。真正的难点，常常藏在这些夹缝里。

这也是为什么我觉得“八家国产 AI 芯片厂商同日适配”这个背景要放大看。

它说明 DeepSeek V4 已经不只是一个模型公司的技术更新，而是把国产 AI 基础设施拉到了一次集体考试里。华为昇腾代表的是国内最强势的 AI 算力底座之一；寒武纪、海光信息、摩尔线程、沐曦股份，代表不同技术路线的国产芯片公司；百度昆仑芯、阿里平头哥背后则有大厂业务场景和云端部署经验；天数智芯也在国产 GPU 路线上持续推进。它们在同一天围绕同一个模型动作起来，本身就是一个行业信号。

这件事当然不能吹过头。

能适配，不代表立刻全面替代。能跑，不代表跑得比英伟达更稳、更便宜、更通用。CUDA 十几年攒下来的开发者习惯、库、工具、调试经验，不会因为一次发布会就消失。很多工程师到今天还会很诚实地说，遇到复杂问题，英伟达那套东西仍然最省心。这话不刺耳，产业里本来就该承认差距。

但差距是一回事，路开始修起来是另一回事。

以前国产算力的问题，有点像车造出来了，但路还不平，导航也不准，维修站也少。客户愿意试，但试完之后心里打鼓。现在模型一发布，芯片厂商、软件栈团队、推理框架、开源社区一起往前跟，至少说明这条路上开始有人连续施工了。路面未必马上平整，可车流一旦起来，修路速度就会变快。

这背后还有一个更大的压力源：供应链不确定性。

美国对高端 AI 芯片的出口限制这几年反复变化，对中国大厂来说，最麻烦的不是贵一点，而是不确定。你今天能拿到，明天还能不能拿到？今年能扩容，明年政策怎么变？一个大模型团队做长期算力规划，不可能只盯当下价格，还要看供应稳定性、交付周期、替代方案和运维成本。

所以企业买算力的思路也在变。

过去很多人问的是：这张卡峰值多高？显存多大？单价多少？现在越来越多客户会追问：一套集群能不能稳定跑半年？模型更新后多久能适配？推理成本能不能压下来？多卡通信效率怎么样？出了故障谁来定位？一年后扩容会不会推倒重来？

这些问题听起来很土，但土问题最接近真需求。

DeepSeek V4 这次还有一个值得注意的地方，是推理侧的分量变重了。100 万 token 上下文、多版本部署、智能体任务，这些东西都会把推理压力放大。模型训练当然重要，但对于大多数企业客户来说，真正每天发生的成本，是推理。每一次调用、每一个并发、每一段长文本、每一次 agent 循环，都会消耗算力。谁能把推理跑稳、跑便宜、跑出规模，谁就更接近产业现场。

这也是国产芯片厂商这次集体适配的真正价值。它不是为了证明某颗芯片纸面性能强，而是在证明：当一个主流开源模型发布时，国产算力能不能尽快变成可部署方案。这个能力一旦反复出现，客户信心就会一点点建立起来。

中美 AI 的技术体系，也会在这种过程中慢慢分开。

美国那边继续围绕 GPU、CUDA、主流云厂商、前沿闭源模型和全球工具链往前跑。中国这边，则开始围绕国产模型、国产芯片、CANN、NeuWare、FlagOS、vLLM 适配、本土云和行业场景一点点补。两边仍然会看彼此的论文，仍然会借开源代码，也仍然会互相学习工程经验。但到了真正部署的时候，使用的芯片、软件栈、运维方式、供应体系，会越来越不一样。

这不是某一天突然发生的断裂，而是每天一点点分岔。

DeepSeek V4 发布当天，八家国产 AI 芯片厂商集体完成适配，我觉得它的意义就在这里。它让我们看到，国产 AI 算力正在从“单点突破”走向“同步响应”。以前是模型先跑，芯片慢慢追；现在至少在一些关键模型上，模型发布和芯片适配开始同场起跑。

当然，后面还有很多硬仗。

Day 0 适配之后，要看真实客户部署；部署之后，要看持续稳定性；稳定之后，要看成本；成本下来之后，还要看开发者愿不愿意长期使用。产业里最怕只热闹三天。真正有价值的，是半年后、一年后，工程师还在用，客户还在复购，模型更新还能继续跟上。

所以这次 DeepSeek V4，我不太想把它写成一个简单的“国产替代胜利”。这种说法太轻了，也太快了。

我更愿意说，它像一个现场信号。

模型公司把新模型推出来，国产芯片厂商同一天集体响应，软件栈团队开始处理那些最麻烦的算子和部署问题，企业客户开始重新评估算力采购标准。热闹在前台，胜负在后台。行业里真正拉开差距的，往往不是发布会上的参数，而是机房里那些没人愿意细讲的工程细节。

DeepSeek V4 这次把这些细节推到了台前。

这才是最值得看的地方。

文｜龚海瀚