星河频率
2026.02.05 06:57

蚂蚁下场具身智能,动了真格

portai
I'm PortAI, I can summarize articles.

当具身智能开始从 Demo 演示逐渐走向量产落地、产业应用的深水区,关于具身大脑的竞争也变得越来越激烈。

发布新模型、乃至开源单个模型,在行业内已屡见不鲜。

但像蚂蚁灵波这样,以 “开源周” 的形式高调地连续四天、一天一发,将四款核心模型全部开源,在行业里是独一份的。

从看清世界,到理解任务,再到模拟世界,最后到行动落地,一套覆盖感知、理解、模拟到执行的完整技术栈全集开源,蚂蚁灵波直接摊开了一张完整模型底牌。

这套组合拳回应了行业内两个问题:

  • 如果未来每个机器人都需要一个大脑,那么这个大脑会来自哪里?
  • 是每家机器人公司自行研发,还是会出现如智能手机时代的安卓或 iOS 一样的共性平台?

蚂蚁灵波的答案是,不仅为行业提供一个成体系的选项,也试图成为那个共性平台本身。

在过去的 2025 年,已经见惯了各家大厂向具身智能撒钱下注,但还没有下潜到真正的竞争之中,具身智能的主战场目前还属于各家初创公司。

而蚂蚁灵波这种直亮底牌、自建生态的姿态,透露出一个清晰的信号:在众多互联网大厂中,蚂蚁可能是现阶段做具身智能最认真的一个。

1、蚂蚁灵波,承载蚂蚁集团的 AI 野心

作为蚂蚁集团全资持股的子公司,从战略层面来看,蚂蚁灵波既是蚂蚁集团从数字金融向实体智能延伸的重要载体,也是蚂蚁集团彰显 AI 野心、抢占行业赛道的核心抓手。

从集团内部的实验室研究,到一个拥有独立建制、背负商业化使命的实体公司。这种组织形态的改变,是蚂蚁认真布局具身智能的重要一环。

从核心成员来看,蚂蚁灵波采用了很务实的商业化 + 技术研发双核心的搭配:

  • CEO 朱兴:2011 年加入阿里,曾参与支付、金融服务和 O2O 等业务的技术,2023 年转型筹建支付宝广告事业部,完成支付宝商业化的从 0 到 1。
  • 首席科学家沈宇军:曾任蚂蚁技术研究院交互智能实验室研究员,主要研究方向为计算机视觉和深度学习。

目前,蚂蚁灵波的团队已经超过 100 人,其中硕博技术人才占比超 9 成。

虽然成立仅一年多,蚂蚁灵波整体的产品展示节奏却很紧密,从机器人产品亮相,再到开源模型,都有很明确的技术突破和场景价值。

其 CEO 朱兴表示,灵波科技选择的是一条差异化路径,聚焦服务和模型,专注于为机器人开发大脑。

四款模型中最先发布的是空间感知模型 LingBot-Depth,核心解决机器人看不透透明、反光材质的痛点。

通过算法优化,大幅提升了机器人对透明、反光材质的感知精度,机器人抓取透明塑料杯的成功率从 0 跃升至 50%,室内场景相对误差降低超 70%。

二是LingBot-VLA,这是灵波开源的第一款具身智能基座模型。其核心价值在于实现了跨本体、跨任务的泛化能力,即同一个大脑可以适配不同形态的机器人,并执行多种任务。

该模型已与星海图、松灵等多家机器人厂商完成适配。

值得一提的是,在 GM-100 机器人评测中,引入深度信息的 LingBot-VLA平均成功率达 17.3%,超越了π0.5。

在仿真基准 RoboTwin 2.0 中,面对高度随机化干扰,其模型成功率也比π0.5 领先近 10 个百分点。

三是世界模型 LingBot-World,通过构建高保真虚拟演练环境,解决真实场景训练成本高、风险大的问题,模型能力可对标谷歌 Genie 3。

LingBot-World 攻克了长时漂移难题,可实现 10 分钟连续稳定生成虚拟场景,端到端交互延迟控制在 1 秒内,为机器人训练提供了高效、低成本的解决方案。

最后亮相的是具身世界模型 LingBot-VA,这是全球首个自回归视频 - 动作一体化模型,着力解决世界模型的预测如何高效转化为行动的问题。

传统的机器人学习范式,往往需要大量任务专用的数据,导致模型难以泛化到新的任务和场景。

而 LingBot-VA 在生成下一步世界状态的同时,直接推演并输出对应的动作序列,让机器人能够像人一样边推演、边行动。

面对长时序任务、高精度任务以及柔性与关节物体操控这三大类六项高难度挑战,模型仅需 30~50 条真机演示数据即可完成适配,且任务成功率相较π0.5 平均提升了 20%。

在本体层面,其首款人形机器人 Robbyant-R1 可在导览中担任导游,在药店分拣药品,提供健康咨询或执行基本的厨房任务,目前已正式投入试点应用,覆盖餐饮、文旅、社区健康等多个民生场景。

从底层感知模型的突破,到上层世界模型的构建,再到本体场景的试水,蚂蚁灵波的第一部分答卷显得异常扎实。

然而,在灵波背后是蚂蚁集团一套更为宏大的战略性布局。

2、蚂蚁的组合拳:自研 + 投资 + 开源

如果说灵波是蚂蚁布局具身智能的前沿阵地,那么蚂蚁集团的自研 + 投资 + 开源三位一体组合拳,就是其认真下场做具身智能的底气。

这三者环环相扣,构成了自研掌握核心技术、投资补齐硬件短板、开源扩大生态影响力的一个具备长期生态优势的战略闭环。

自研是根基与掌控力的体现。

早在 2015 年,蚂蚁集团就成立了蚂蚁技术研究院,交互智能实验室作为六大实验室之一,研究方向涵盖通用 AI 算法架构、人机交互技术等方向。

2024 年,研究院明确了两大聚焦方向,一个是数据要素核心技术,另一个是人工智能,其中具身智能与智能机器人被列为人工智能领域的重点细分方向。

此次一连发布四款模型,背后体现的是蚂蚁集团一直以来在 AI 端的自研技术。

目前具身智能行业整体呈现硬件发展优于、快于软件,只有通过自研高性能模型才能实现软硬联动时的效能可控和能力可定制,从而进一步推动机器人在实地场景中的有效率运作。

同时不可忽视的是,具身智能的发展需要软硬件全栈精通,蚂蚁集团的自身优势在于软件和场景,在机器人硬件领域的积累相对薄弱。

所以,投资是补齐短板与生态布局的关键。

2025 年全年,蚂蚁集团在具身智能赛道出手频繁,是互联网大厂中投资最活跃的企业之一,其投资布局极具针对性,精准切入产业链各核心环节。

既投资了宇树科技这样重硬件的公司,也有星尘智能、星海图等全栈式且有科研合作空间的公司,以及灵心巧手、钛虎机器人等产业链上游公司。

这些投资动作,形成了机器人本体 - 核心零部件 - 技术研发的完整投资布局,让蚂蚁集团快速补齐了硬件短板,实现了软件 + 硬件的协同发力,为灵波科技的技术落地提供了硬件支撑。

模型发布即开源是蚂蚁最具战略眼光的一步,也是区别于友商的核心优势之一,因为绝大部分公司都没有做到这一点。

除了开源四个核心模型外,蚂蚁灵波还提供了模型权重,更开放了包含数据处理、高效微调、自动化评估在内的全套工具链。

这一系列动作背后是技术 + 生态的双向构建。

首先,开源是快速构建开发者生态的最有效方式。通过降低全球开发者的使用门槛,吸引他们基于 LingBot 系列模型进行开发。

其次,这能加速整个行业的成熟。归根结底,开源是为了加速具身智能技术的迭代与规模化应用。行业蛋糕做大了,位于底层的大脑提供商自然获益最大。

最后,开源能形成数据与反馈的反哺。广泛的开发者应用将产生海量的场景数据和优化需求,进而推动灵波自身的模型持续迭代,形成越用越强的正向循环。

通过自研 + 投资 + 开源的一套组合拳,蚂蚁集团实现了技术 + 硬件的自主可控,技术迭代 + 生态构建的正向循环以及产业链整合 + 生态扩大的协同效应。

每一步都直击行业痛点,为的是追求整个产业链的协同发展,最终实现1+1+1>3的效果。

3、在具身智能上不断战略分化的大厂们

过去的 2025 年,无疑是具身智能赛道的爆发元年。

随着行业热度的持续攀升,字节、美团、百度、京东等各大互联网大厂纷纷高调入局,高举高打投资具身智能相关公司,一时间赛道群雄逐鹿。

但热闹背后,大厂们的布局态度、核心方向、落地成果也呈现出明显的分化态势。

腾讯是大厂中布局具身智能最早的玩家之一,早在 2018 年 3 月就成立了 Robotics X 实验室,聚焦机器人技术研发,但实验室并不以商业化作为运营目的。

目前其实验室成果是具身智能开放平台 Tairos,平台包含模型算法和云服务两大组成部分,主打即插即用的模块化软件服务。

腾讯主打的是产品平台化,目前越疆、帕西尼、宇树都有跟 Robotics X 实验室进行合作。

字节跳动在具身智能领域的布局相对低调,具身智能的相关研究集中在 2023 年成立的 Seed 团队。

Seed 的重点在于模型研发,2025 年其团队推出了 VLA 模型 Seed GR-3。该模型能够理解抽象指令、操作柔性物体,并具备良好的泛化能力,能够有效处理长程任务并能进行高灵巧度的操作。

同时,通过相关基金机构锦秋基金,字节在 2025 年也投资了产业链上下游的多家企业。2026 年 1 月,字节跳动联合红杉中国、深创投等机构完成了对自变量机器人的十亿元融资。

美团则是在 2022 年成立了机器人研究院,核心优势是场景贴合。

依托自身在本地生活、物流配送等领域的场景优势,聚焦于与自身业务相关的具身智能方向,主要包括无人机配送、灵巧手、遥操作系统。

美团的策略是产学研合作,其明确表示研究院致力于搭建连接产业与学术的开放科研平台,通过真实场景反哺前沿研究,让科技成果更快走向应用。

京东在具身智能领域的布局起步较晚,直到 2025 年 3 月才开始加速布局,但其投资态势迅猛,成为 2025 年具身智能赛道的投资黑马。

与蚂蚁集团类似,京东的核心布局策略是投资 + 场景协同,其先后投资了千寻智能、帕西尼、RoboScience、逐际动力等六家公司。

除了密集投资,京东内部也成立了相关业务部门,有多个团队沿不同路线探索落地可能性,并将京东角色大模型驱动的对话智能体植入机器人、机器狗、AI 玩具等硬件中,与十余家头部机器人品牌达成合作。

对比上述各大厂的布局,蚂蚁灵波虽然并非出发最早的玩家,但凭借实干和闭环的差异化优势异军突起。

总的来看,灵波的优势在于以下三点:

  • 投入集中且聚焦,资源投入倾向明显
  • 布局系统且完整,形成自研 + 投资 + 开源的生态闭环,软硬件协同发展
  • 成果落地快且有明确落地价值

经过了 2025 年资本盛宴、量产狂欢的野蛮生长,2026 年具身智能赛道的竞争无疑会逐步从单点技术比拼转向系统性闭环比拼,从概念炒作转向落地为王。

而无论是暗自攒劲默默布局的大厂们,还是已经高调秀肌肉的蚂蚁灵波,大概都会围绕三个方向进行自我优化。

第一是补齐自身短板,从单点布局转向系统性闭环。

当前,多数大厂的布局存在一定短板,要么相关人才团队建设滞后,要么缺乏硬件支撑,要么没有核心落地场景,未来,各大厂或许会借鉴蚂蚁集团投资 + 自研 + 开源的模式,构建完整的生态闭环。

第二是聚焦生态共建,开源成为核心竞争高地。具身智能的研发难度高、产业链长,单一企业难以完成全链条的技术突破和产业化落地,闭门造车难以适应赛道竞争节奏。

未来,各大厂将抓住开源生态,通过开放核心模型、工具链等资源,吸引全球开发者、中小企业参与生态建设,形成开源 - 数据反馈 - 技术迭代 - 生态扩大的循环。

第三是锚定场景落地,服务业成为当下核心突破。

服务业领域,目前餐饮、养老、文旅、社区服务等行业普遍存在人力短缺、服务效率低等痛点,具身智能机器人的落地需求迫切,也是从技术实现角度而言最容易触达的场景。

纵观大厂们或高举高打、或低调潜行的布局,蚂蚁灵波选择了一条更接近本质的道路:回归场景、构筑生态、分享核心。

这或许意味着更慢的炫技节奏,但却指向了一个更扎实的商业化未来。

毕竟,具身智能的产业化,从来不是单一技术的胜利,而是战略布局、技术实力与落地能力的综合比拼,这也是行业从野蛮生长向成熟规范转型的核心逻辑。

$Alibaba(BABA.US) $JD.com(JD.US) $Tencent(TCEHY.US)

The copyright of this article belongs to the original author/organization.

The views expressed herein are solely those of the author and do not reflect the stance of the platform. The content is intended for investment reference purposes only and shall not be considered as investment advice. Please contact us if you have any questions or suggestions regarding the content services provided by the platform.