具身智能赛道热闹2-3年了,融资消息依然不断,人形机器人的出货量也在不断攀升,大厂入局,创业公司还在不断涌现。但是,大家都没有回答一个根本性的问题,机器人到底能不能干活。

作为一位从学术界走出来的创业者,贾奎也提出了同样的问题:"行业已经发展了两三年,大家不能一直停留在demo展示,总要拿出能够解决问题的产品和业务结果。"

今天(6月30日),跨维智能宣布完成新一轮高达10亿元的融资,投后估值超百亿元,成为国内具身智能赛道新晋百亿估值独角兽。融资消息公布之际,跨维智能创始人贾奎教授与媒体进行了深度对话,围绕公司技术路线、世界模型演进、商业化逻辑及行业趋势进行了坦诚阐述,也回答了机器人到底能不能干活的问题。

"不能一直秀Demo,总要拿出结果"

贾奎感受到,2026年投资人的关注点已经发生了根本性转变。

"一个很明显的变化是,市场开始从关注'机器人会不会动''机器人动作够不够炫',转向关注'机器人到底能不能干活'。"

他直言行业正在面临一个分水岭:"行业已经发展了两三年,大家不能一直停留在demo展示,总要拿出能够解决问题的产品和业务结果。"

而当被问及行业当前最大的问题时,贾奎表示:"目前行业最大的问题确实是太浮躁。不管你说Physical AGI哪一天实现,或者说你的技术多智能、精度多高,最后还是要回到一个问题:你到底能解决什么问题?"

跨维智能给出的答案是用数字说话。贾奎透露:"在产业落地上,在其他家争相发Demo的时候,跨维已经累计开发完成上百家客户,落地数十个场景,年营收达到亿元级,是具身智能工业场景落地第一名。"

此次,跨维智能完成了新一轮10亿融资,谈及本轮10亿元融资的用途,贾奎表示将持续投向两个方向:"一是底层创新突破,数据、模型、计算都需要持续大力投入,物理AI相比大语言模型还有更长的路要走;二是真正解决行业问题,带来降本增效,完成价值闭环。"

他同时透露了几个值得关注的动向:跨维智能即将在今年NeurIPS上主办基于合成数据训练的真实世界机器人任务竞赛,推动建立新的行业Benchmark;公司也将推动预训练阶段的新Benchmark,以更科学的方式衡量具身智能的真实进展。

"具身智能缺的不是仿真,是全链条的高效自动化"

具身智能为什么还没有出现自己的"ChatGPT时刻"?贾奎认为根本原因在数据——而且是一种与大语言模型截然不同的数据困境。

"具身智能所需要的智能与大语言模型的智能是两种不同的智能。大语言模型建立在互联网海量文本之上,但具身智能从一开始就必须是多模态的、三维的、物理精确的。"

他引用了一个直观的对比:"无人驾驶为什么能获取大量真实数据?因为我们每天都在开车。而具身智能领域,除了工厂和物流仓里有机械臂,我们生活的世界里根本没有机器人。"

传统真机遥操方式每天仅能获取100至150条数据。"以这样的效率想要实现通用泛化,可能需要10万年。"

面对这一困局,跨维智能选择了生成式仿真(Generative Simulation)的路径。但贾奎特别强调,具身智能引擎与物理仿真本身是两回事:

"成熟的底层物理仿真技术在工业界已经存在几十年了,刚体、软体、流体的模拟精度都很高。具身智能缺的不是这些底层仿真技术,而是如何把物理仿真形成的任务场景、虚拟传感器产生的数据、模型训练、再到本体部署,能够高效自动化地连接起来。"

跨维智能自主研发的DexVerse™具身智能引擎,正是要解决这一"全链条自动化"问题。贾奎透露,公司正在大力推动的Generative Simulation技术已经实现了:"给一张图片,给一个语言描述,就能自动生成任务环境,再由AI Agent自动组织机器人在虚拟世界中完成任务、产生数据、训练模型。"

"我们从造数据到训模型,到让它能work,在半结构化的泛智能制造场景下可以在6到8个小时内完成;一个新的人形机器人商业场景任务能够在几天内完成。"贾奎表示:"Generative Simulation本身就是生成式AI的皇冠上的明珠——相比语言模型的生成、Sora式视频的生成,三维物理世界的生成代表着更高维度的技术挑战。"

世界模型:超越视频生成,回归三维物理本质

2026年,世界模型成为具身智能领域最热的技术关键词。贾奎认为这一热潮有其深层的技术原因:

"VLA(Vision-Language-Action)的架构,本质是一种shortcut learning。经过两年多的实践,大家发现它在泛化学习上是低效的。你的数据堆得再多,如果建模方式错了,学习效率可能低1000倍、1万倍。"

但贾奎同时指出,跨维智能所推动的世界模型与业界常见的视频生成式世界模型有本质区别:"纯粹基于视频生成的世界模型是不行的。物理世界是三维的,世界的机理不是停留在RGB像素空间的。Sora能生成好看的视频,并不意味着它学到了世界的内在规律。"

据贾奎透露,跨维智能的世界模型DexWorldModel具有两个核心设计原则:其一,Latent Space采用Space-Time表征。"区别于视频生成的表征形式,它能够直接在三维物理空间生成机器人动作。我们不追求生成给人看的RGB视频帧,我们生成的是真正能让机器人精准执行的隐空间特征。"

其二,DexBEV技术。"将无人驾驶领域最重要的BEV概念升维至三维物理世界,把视觉、力觉、触觉、电机信号等多源异构数据统一到一个坐标空间下。从数据利用效率到模型学习效率,到最后驱动机器人执行的结果,都能真正打开局面。"

据悉,在跨维发布DexBEV一周后,阿里即发布了高度相似的方案,"说明行业确实在往这个方向收敛"。

50+行业落地,从亿级营收到3-4倍增长

具身智能行业从来不缺少理论,缺少的是商业化。在商业化方面,跨维智能表示,已经累计落地超过50个细分行业,部署超过1500个具身智能模型。

据悉,在泛智能制造板块,跨维智能以AI大脑(PickWiz/X-Wiz)和空间智能传感器(DexSense)赋能第三方工业臂、协作臂,深入工业生产一线。具体场景涵盖电子制造领域的PCB板检测分拣、3C产品柔性装配、精密零部件上下料,物流仓储领域的混合SKU无序抓取、快递包裹分拣、异形件码垛,汽车制造领域的线束插拔、多工位柔性装配,食品医药领域的软包装分拣、试剂管理摆放,以及纺织服装领域的柔性面料抓取与叠放等高难度灵巧操作任务。

贾奎坚持严格的ROI铁律:"整套系统的售价不能超过在这个位置上一个工人18个月的工资。我们在没有风口的时候就是这么做的,现在有了风口更不会放松这个标准。"

在商业服务板块,通用人形机器人DexForce W1系列以"DexBot Inside"模式运营——跨维将搭载技能模型的本体销售给商业运营商,由合作伙伴自主运营获利。应用场景已覆盖商业综合体导购导览、文旅景区讲解互动、品牌零售门店迎宾促销、展览展会接待讲解、酒店大堂迎宾与入住引导、餐厅点单送餐、银行网点业务引导、政务大厅咨询办理、科技馆与博物馆科普教育、主题乐园角色扮演互动等多元场景。

"我们所有对外落地的场景,都不是我们自己在运营,而是通过具身技术和通用本体赋能合作伙伴,让他们真正用产品和技术去赚钱,这才是可持续的方式。"贾奎表示。

数据印证了这一模式的可行性:2025年五一黄金周期间,合作伙伴单店最高实现10万元以上营收,十余家门店累计接待超过50万客户。

据悉,跨维智能已形成“技术迭代—产品落地—客户付费—数据反哺”的正向商业循环,成为行业少数实现超亿级营收、规模化真实作业机器人出货的企业。

贾奎曾预计2026年跨维智能全年营收将实现3至4倍增长。其中泛智能制造保持2倍增速,商业服务作为第二增长曲线贡献更大增量。

Physical Token经济学:定义物理AI的商业新范式

另外,在商业模式的深层逻辑上,贾奎正在推动一个全新概念——Physical Token经济学。

"大语言模型的Token经济学已经被社会广泛理解。具身智能很像,但也有本质不同——它是发生在真实世界的物理载体上,不是人在消耗token,不是程序员在消耗token,是机器人在消耗token。而且它消耗的是三维物理世界的多源异构数据。"

贾奎将这一经济学拆解为完整的价值链条:预训练数据的获取效率、后训练数据的生成效率、模型训练的建模效率、边界内通用泛化性的实现——所有环节共同决定了"ROI per Physical Token"。

他用这一框架来审视行业的投入方式:"如果以无以为继的方式投入,哪怕从全社会层面看,也可能是不可持续的。"

最终目标是什么?贾奎说得清晰而坚定:"我们追求的核心目标,是实现the highest ROI per physical token——让物理世界里的每一组数据、每一次动作、每一轮推理,都能高效转化为真实的商业价值。"

在具体的收费模式上,跨维智能已在部分客户中实现按Token收费:客户购买本体后,持续为AI模型的推理能力付费。产品内置"影子模式"在客户授权下回流运行数据。

但贾奎反复强调一个前提:"你的模型放到机器人上,部署到客户现场,首先就得达到产品级。你不能去到现场再采数据训练,那样生意是没法做的。真实场景回流的数据只是解决极少数corner case,而不是让模型达标的手段。"(崔玉贤)