汽车之心
2026.04.25 14:14

站在物理 AI 分水岭,商汤绝影 “一剑定乾坤”

portai
I'm LongbridgeAI, I can summarize articles.

今年新能源汽车渗透率持续攀升,行业由政策驱动全面转向市场驱动,智能化竞争进入深水区。

理想 MindVLA-o1 已实现自然语言理解、自主推理与复杂泊车,华为、小鹏、蔚来等也加速推进舱驾一体,智驾与座舱边界正系统性消融。

这一切共同印证:物理 AI 时代正加速到来。

而这一趋势在产业一线集中呈现。

2026 北京车展,整车与核心技术供应商第一次在物理空间融在一起。这种融合在传递一个强烈信号:

智能驾驶的定义权,正从幕后走向台前。谁能定义「整车智能」,谁就掌握下一轮竞争的入场券。

「整车智能」并不是一个终点的概念,只是一道入口命题。当 AI 完成「感知—决策—物理执行」的完整闭环,AI 才算真正从「软件智能」升维到「物理智能」。

换言之,物理 AI 的可信落地是定义整车智能的核心标尺。

然而,物理 AI 必须直面现实世界,由于真实物理世界的不确定性、极端场景的不可预测性,AI 难以做到稳定、可解释、可验证的可信决策。

从算法可行到上车可信,看似咫尺之遥,却是最难跨越的「最后 500 米」。

那么这道横亘在量产与安全之间的关卡,真正的瓶颈究竟是什么?

01、物理 AI,困于可信

回看自动驾驶的进化路径,答案一目了然。

第一阶段是规则时代

靠人工写逻辑、调参数、补场景,遇到新情况就得重新开发,迭代慢如蜗牛。

第二阶段是端到端时代

从视觉信号直接输出驾驶动作,靠模仿学习学会「像人一样开车」。但它只解决了「能不能开」,没解决「敢不敢信」。AI 的决策变成黑盒:为什么刹、为什么避、为什么绕,乘客一无所知,不信任感无意间被放大。

商汤绝影曾有一个很形象的比喻:「端到端和传统技术范式的区别,就是人脑通用性之于动物的区别。」

但人之所以为人,不只是会动作,更会解释、会沟通、会让人安心。「我为什么刹车」、「前面发生了什么」、「接下来要怎么做」——这些,才是用户真正在意的东西。

这正是「可信」问题的症结所在。商汤绝影曾判断:「端到端是智能驾驶的 ChatGPT 时刻。」既然是 ChatGPT 时刻,为什么用户还不信任?

原因是因为端到端解决了能力,但没有解决可解释性。智驾高端局的决战,战场在云端,但入场券是「可信」。

这背后,藏着一整条清晰的技术脉络。

第一步:模仿学习。

用海量人类驾驶数据训练,让 AI 学会「看到什么,就做什么」,这是特斯拉 FSD V12 走通的路径。

第二步:世界模型。

不只模仿,还能「想象」,在虚拟世界里预演各种可能,提前推演决策后果。这正是 2024 年商汤绝影「开悟」世界模型的核心逻辑。

第三步:强化学习。

让模型与世界模型持续交互、试错、反馈、迭代,最终超越普通人类驾驶水平。这便是 2025 年商汤绝影 R-UniAD 的技术路线。

因此,端到端的瓶颈,不在车端,而在云端;不在数据量,而在数据质量;不在能不能开,而在敢不敢信

于是今年,行业出现了一次关键转向:从功能可用,走向体验可信。

2026 年,大模型行业正跨过关键拐点:从 AGI L2 推理阶段,加速迈向 AGI L3 自主执行阶段。当智驾开始「会思考」,则是重塑智能座舱的竞争逻辑。

过去的座舱是「人找功能」:你说导航,它才导航;你不说,它沉默等待。

更进一步的智能应该是「车懂人心」:知道你在开车、知道快下班、知道你常去的地点,主动提醒、主动规划、主动服务。这是从工具到智能体的本质跨越。

然而这一步,被一道行业铁律死死卡住:端侧大模型上车的「不可能三角」。

「能力强:要能做智能体、多步推理、复杂任务闭环」;

「跑得动:要在车规 Orin/Xavier 芯片上低延迟、低功耗运行」;

「用得起:主流场景免云端 Token 计费、端侧闭环降本、可大规模量产」。

行业落地过程中,三类主流方案都需要做出权衡与取舍。

02、商汤绝影如何破局「物理 AI」可信度?

纯云端方案能力强,却受制于网络稳定性与长期成本;轻量化端侧小模型运行稳定,却难以支撑高阶智能体任务;常规车云协同方案则面临调度复杂、体验割裂的困境。

三类路线各有取舍,但无一能同时满足强能力、低功耗、低成本的核心诉求。

当行业普遍深陷车载大模型的「不可能三角」,在强能力、低功耗、低成本之间反复取舍时,商汤绝影选择了差异化的技术路径。

跳出非此即彼的取舍逻辑,通过底层架构革新,探索一套更适配车载量产环境的端侧大模型解决方案。

2026 北京车展期间,商汤绝影正式推出 SageBox(千机智盒),构建了「Sage 端侧模型、Sage OS(千机系统)、New Member 原生智能体」三层技术架构。

这款产品,让高阶智能体能力在车端有限硬件条件下跑通起来了。

MoE 架构、总参数 32B、激活参数仅 3B,在全球 Agent 权威评测基准 PinchBench 上以 94% 任务完成率 超越 Claude、GPT-5.4、Gemini,所需激活算力仅为同级端侧旗舰的 1/14,显存占用约 1/31。

这是物理 AI 落地的基础条件:模型必须真正住在车里,才能在没有网络、没有云端的极端场景下照常工作。

能力纬度测评

商汤绝影认为:「打破三角的关键,不是『取舍』,而是『解耦』——让能力与成本各归其位,互不妥协。」

支撑这一切的,是两项自研技术:

SCOUT 框架让复杂能力注入时 GPU 消耗节省约 60%;ERL 可擦除强化学习(已被 ICLR 2026 收录)在多步推理中自动识别并抹除错误步骤,装车后复杂任务完成率提升 20%。

三个设计,分别对应不可能三角的三个顶点:MoE 解决能力与负载的矛盾,SCOUT 解决训练成本的问题,ERL 解决推理稳定性的挑战。

于是,当你说「预热车内、导航回家、切换轻松音乐」,Sage 无需逐句确认,0.5 秒内联动空调、导航、音乐三套系统;检测到后排有儿童时,主动触发儿童模式,不等唤醒。

可信的第一步,是 AI 真的在场——不依赖云,不怕断网,始终稳定。Sage 的价值,不在于堆砌技术,而在于用一套体系化的解耦思路,缓和了这道长期存在的行业难题。

小模型获得最高成绩

智驾的信任危机,比座舱更深。

它不是「听不懂指令」,而是「你不知道它为什么这么开」。

传统规则驱动的智驾,遇到长尾场景就僵;模仿学习复刻的智驾,遇到没见过的情况就迷;二段式端到端,信息在模块边界被压缩,决策链条不透明,系统「犹豫」甚至突然反转——这些,都在消耗用户对智驾的信任。

商汤绝影今年升级的 R-UniAD 2.0 生成式智驾方案,更进一步打破了传统端到端架构的数据瓶颈,新增多模态交互能力,可精准响应驾驶员自然语言指令,实现决策可解释与舱驾场景全覆盖——系统更透明,体验更连贯。

可信的第二步,是 AI 的决策有据可循——不是黑盒,是可被理解的判断过程,可被验证的量产结果。

作为统一智能底座,该方案可无缝适配 L2 至 L4,并已在北京、武汉等城市泛化测试中稳居行业头部,与东风汽车的量产合作,标志着智驾从模仿学习正式走向自主进化。

前两层可信解决的是——舱内大脑稳不稳、驾驶决策靠不靠谱。但物理 AI 真正的可信,必须是系统级的。

如果舱和驾各自为战,用户永远要在两套逻辑、两套体验、两种「信任预算」之间切换。这正是当前大多数智能车的真实处境:

座舱是一个产品,智驾是另一个产品,整车是两者的物理拼接。

商汤绝影选择打通这堵墙。

SenseAuto Go 依托生成式智驾 R-UniAD 2.0、New Member 2.0 及 SageBox 千机智盒三大核心技术支撑,构建舱驾一体超级智能体,不仅可实现 L4 级自动驾驶的点到点高效接驳,更将智驾的安全可靠与智舱的主动交互。

「真正的 AI 汽车,是一个真正懂你、爱你、守护你的家庭新成员。」

在如今的车企智能化赛道上,堆参数容易,建信任难。

商汤绝影走的路,是物理 AI 可信落地最难走、也最有价值的那条:端侧装得下的大脑、量产经得起的决策、整车撑得住的守护。

舱驾一体,不是功能的叠加,而是可信度的统一。

03、整车智能体,执棋破局

2026 年的智能座舱,正站在一个清晰的范式切换路口。

行业不再是小步迭代,而是从功能堆砌走向智能体驱动,而每一次范式转移,留给玩家的窗口期,都比想象中更短。

更关键的变化在于:智驾与座舱的技术路线正在快速收敛。过去两者是两套独立系统;而多模态大模型的出现,让它们拥有了统一底座——同一个模型,既可处理驾驶感知,也可承接座舱交互。

这意味着,车企的选择逻辑正在改变:

从「智驾选一家、座舱选一家」,转向「寻找能打通全域的一体化方案」。一旦深度绑定,切换成本将急剧升高。

而在这场窗口期竞赛里,端侧能力是真正的差异化变量。

云端大模型更像「公共资源」,任何厂商都可接入,差异仅停留在提示词与场景层,容易被复制。但把大模型高效跑在车规芯片上,做到低延迟、高稳定、强推理,是长期工程化积累的结果,难以短期追赶。

这也是为什么,商汤绝影的布局并非从单一维度切入,而是沿着一条清晰且连续的路径展开。

从 2022 年 UniAD 到 2025 年「开悟」世界模型,再到今年 R-UniAD2.0 与 Sage 相继落地,这条路径清晰且连续:从感知到认知,从驾驶到座舱,从单点突破到全域融合,最终指向的,是同一个目标:舱驾一体全场景智能体。

这个「一体」,不是用中间件简单连接两套系统,而是认知层面的真正融合。

  • 模型架构:MoE 混合专家、激活策略、量化与压缩技术
  • 后训练体系:SCOUT 分级学习、ERL 可擦除强化学习等自研算法
  • 车规落地:与芯片平台深度适配、大量实车场景验证

三层能力叠加,构成了难以复制的壁垒。

特斯拉、小鹏、理想等头部车企正悄然推进组织重构,试图将 AI 能力内化,打通智驾与座舱的研发壁垒。

但对多数车企而言,从零自研舱驾一体底座的技术门槛极高,不仅需要模型能力,还需要车规适配、数据飞轮与持续的工程化投入。

商汤绝影的切入点正在于此:通过兼容主流 Agent 框架,提供开放基座,让车企不必从零搭建技术栈,即可快速接入端侧智能体能力。

这种「基座 + 生态」的模式,一方面降低了车企进入舱驾一体的门槛,另一方面也构成了商汤绝影独特的技术护城河。

回到最初的问题:物理 AI 时代,汽车将走向何方?

答案已经清晰:不再是单点功能的军备竞赛,而是舱与驾的认知统一。

让 AI 的每一次感知、每一次决策都稳定可验证,让更懂人心的座舱交互与更拟人的智驾决策,由同一个智能体底座驱动,交付到用户手中。

这是商汤绝影的全局竞争力:

从 Sage 的端侧智能体底座,到生成式智驾的量产落地,再到舱驾一体全场景智能体的统一愿景——不只是在每个赛点领先一步,而是在每一个赛点之间,铺设好了相互贯通的技术连贯性。

下半场的窗口期不会停留。

未来两三年,端到端与舱驾融合路线将趋于稳定,后来者不仅面临技术追赶难题,更要面对组织惯性、数据飞轮、生态绑定的三重路径依赖。

特斯拉、小鹏、理想通过组织重构内化 AI 能力,是自上而下的战略先手;商汤绝影以开放基座赋能车企舱驾一体,则是自下而上的技术落子。

两条路殊途同归,都指向同一个方向——谁先建立起舱驾一体的端侧智能体底座与生态护城河,谁就率先定义整车智能的下一个时代。

$SENSETIME-WR(80020.HK) $SENSETIME-W(00020.HK)

The copyright of this article belongs to the original author/organization.

The views expressed herein are solely those of the author and do not reflect the stance of the platform. The content is intended for investment reference purposes only and shall not be considered as investment advice. Please contact us if you have any questions or suggestions regarding the content services provided by the platform.