《小米真正的野心：不是做 AI，而是让 AI 进入物理世界》

真正改变时代的技术，从来不是更会说话的技术。
而是那些最终长出手、长出脚、接上设备、进入工厂、参与生产的技术。
过去两年，几乎所有科技公司都在讲 AI。
有人讲参数，有人讲榜单，有人讲推理成本，有人讲 Agent。
但如果把时间稍微拉长一点，你会发现，真正决定一家企业上限的，不是它能不能做出一个爆款模型，而是它能不能把 AI 从屏幕里放出来，让它真正进入现实世界。
而小米现在最值得重估的地方，恰恰就在这里。
很多人还把小米理解成一家手机公司，最多再加上一层 “造车公司” 的标签。
但这已经越来越像一种过时的认知。
因为今天的小米，正在做的不是给旧业务加一点 AI 功能，而是试图把模型、系统、硬件、机器人和工厂连成一条完整闭环。
这条闭环一旦跑通，小米争夺的就不再只是手机份额、汽车销量，甚至也不只是模型排名，而是现实世界的执行权。
先看 “大脑”。
MiMo-V2-Pro 这次最值得注意的，不是 “又发了一个模型”，而是它被小米官方明确定位为一款面向真实 agent 工作负载的旗舰基础模型。官方页面写得非常直接：它不是为了做漂亮 Demo，也不是为了停留在问答层，而是要充当 agent systems 的大脑，去编排复杂工作流，推动生产工程任务，完成真正的执行型任务。也就是说，小米自己对 MiMo 的定义，已经不是 “聊天模型”，而是 “行动模型”。
更关键的是，这个 “大脑” 已经开始被市场验证。
OpenRouter 的公开榜单显示，MiMo-V2-Pro 在编程模型中排名第一，编程市场份额约为 31.7%，总使用量约 3.4T token。这意味着，市场最先为它买单的，不是陪聊能力，而是实用能力、工程能力和执行能力。换句话说，MiMo 这一步，小米已经不是在证明 “我也能做模型”，而是在证明 “我的模型已经开始能干活了”。
这件事为什么重要？
因为过去两年，大多数 AI 竞争都发生在数字世界。
模型处理的是文字、代码、图像、语音。
它们当然很强，但本质上仍然停留在信息层。
可信息层从来不是终局。
AI 真正的下一阶段，不会只是更聪明地回答问题。
它一定会继续往前走：调用工具、操控系统、连接终端、驱动设备，最后直接作用于物理世界。
而小米现在展现出来的路线，正是这条路。
MiMo-V2-Pro 官方页甚至直接写出一句很值得反复咀嚼的话：从 coding 到 claw。这句话的真正含义，不是营销修辞，而是战略方向——从会写代码，走向会控制 “手”。
再往下看，“身体” 也开始成形。
今天，雷军在微博公布了小米机器人团队在灵巧手领域的新进展：小米机器人灵巧手采用了 “全掌触觉手套”“仿生结构设计”“类人汗腺散热” 等方案，已经可以完成拧螺丝、捏羽毛、抛接球等高精度、高泛化动作，并通过了 15 万次抓握循环可靠性测试。雷军还明确表示，希望通过不断应用尝试，最终让机器人在工作站长时间部署中把作业成功率推进到接近 100%。相关财经媒体也同步报道了这一口径。
这条更新的重要性，远远大于 “机器人又有新视频了”。
因为在具身智能里，真正难的从来不只是 “看见” 和 “理解”，而是精细操作。
粗放动作，靠机械结构和预设路径，很多团队都能做出来。
但像拧螺丝、捏羽毛、抛接球这种任务，考验的是触觉、反馈、控制、散热、耐久性和动作泛化能力的综合水平。
说得更直白一点：真正难的，不是让机器人 “动起来”，而是让它像一双手那样，细腻、稳定、长期地工作。
而小米现在补的，正是这双手。
如果说 MiMo 解决的是 “大脑” 问题，那么灵巧手解决的，就是 “末端执行” 问题。
一个模型再聪明，如果最后不能变成稳定、耐用、可部署的动作，它仍然只是云端里的聪明。
可一旦 AI 有了真正能在物理世界里长期工作的手，它的价值就会彻底改变。
它不再只是解释世界，而开始参与世界。
不再只是生成答案，而开始完成动作。
这时候，再把 “工厂” 放进来，整件事的轮廓就更清楚了。
小米官网近期发布的内容，以及多家行业媒体的报道都显示，小米具身机器人已经进入小米汽车工厂相关工位进行连续自主运行测试。公开报道提到，在一个装配工位中，机器人连续运行约 3 小时，双侧安装成功率达到 90.2%，并满足 76 秒的产线节拍要求。与此同时，雷军在两会相关表述中也明确强调，要推动人形机器人在智能制造中的应用，从实验阶段走向大规模部署。
请注意，这一点极其关键。
今天谈机器人，最容易犯的错误，就是把它当成下一代消费电子新品来想象。
好像只要外形够酷、动作够炫，就离商业化不远了。
其实完全不是。
机器人最现实、也最有价值的第一站，从来都不是家庭，
而是工厂。
因为只有工厂，才有足够标准化的动作、足够高频的重复、足够明确的成本收益，以及足够真实的反馈闭环。
谁能先在工厂里把机器人跑通，谁才真正摸到了具身智能商业化的门槛。
而小米最危险的地方，恰恰在于它不仅有模型，也不仅有机器人，
它还有系统、终端、汽车和工厂。
很多公司只能解决其中一个环节。
有的公司有模型，但没有终端。
有的公司有机器人，但没有系统。
有的公司有工厂，但没有智能底座。
有的公司有设备，却没有统一的调度中枢。
而小米正在做的，是把这些东西同时握在手里：
MiMo 负责推理、规划、Agent 化调度；
系统负责连接、调用、编排；
手机、IoT 和汽车负责提供真实入口与场景；
机器人负责把智能变成动作；
工厂负责提供最严格、最真实、最可量化的训练场和验证场。
再看基础研究层面，小米也不是只在讲故事。
公开的 arXiv 论文和项目页显示，Xiaomi-Robotics-0 是一套 4.7B 参数的开源视觉 - 语言 - 动作模型，目标就是实现高性能、实时、平滑的机器人动作执行。论文里给出的结果显示，它在多个仿真基准上达到当前最优表现，比如在 LIBERO 上的平均成功率达到 98.7%。这说明，小米做的不是简单的机器人硬件集成，而是在补具身智能里最难、也最核心的一层：让视觉、语言、动作形成端到端闭环。
从这个意义上说，小米的 AI 已经不是一个 “新业务”，
而更像是一场全栈重构。
过去，我们理解一家科技公司的方式很简单：
做硬件的，按硬件看；
做软件的，按软件看；
做汽车的，按汽车看；
做 AI 的，按模型看。
但小米现在最有价值的地方，恰恰不是某一层单点有多强，
而是这些层开始互相加强、互相放大。
手机和 IoT 提供入口与分发；
汽车提供高价值、强场景、移动化的物理终端；
MiMo 提供推理和调度；
机器人提供执行；
工厂提供验证和训练。
这已经不是 “做几个新业务” 了，
而是在构建一个新的工业智能闭环。
更直白一点说：
如果一家公司的 AI 只能帮你写文案，它当然有价值；
但如果一家公司的 AI 能调用系统、指挥设备、协调机器人、参与制造，
那它争夺的就不再只是流量和用户时长，
而是现实世界的执行权。
而执行权，往往比解释权更值钱。
因为解释权决定你怎么理解世界，
执行权决定世界怎么被运行。
当然，话也不能说得太满。
像 “AIOS 将取代 HyperOS”“MiClaw 拥有 50+ 系统级原生 API 权限”“灵巧手尺寸、自由度、散热和触觉覆盖的全部具体参数” 等更细颗粒度的说法，我这次没有拿到足够强的一手公开材料去完成独立交叉验证，所以这些点更适合当作后续观察线索，而不适合作为这篇文章的论证主轴。相比之下，MiMo-V2-Pro 的公开定位与平台表现、雷军今天披露的灵巧手 15 万次测试、Xiaomi-Robotics-0 的开源论文、以及机器人进入工厂测试，这几条主线是更扎实的。
所以，如果把这篇文章浓缩成一句话，我想说的是：
小米真正的野心，不是做一个更会聊天的 AI。
而是让 AI 获得系统、终端、机器人和工厂，最终进入物理世界。
这比 “又发了一个模型” 重要得多。
因为模型再强，如果只活在云端，它改变的主要还是信息世界；
可一旦模型开始接入设备、驱动动作、进入制造，它改变的就会是现实世界本身。
而这，才是今天最值得重估的小米。
它可能是中国极少数，正在同时打通
模型层、系统层、硬件层、制造层
的公司。
如果这条路真的走通，小米未来争夺的，就不只是手机市场、汽车市场，甚至也不只是 AI 市场。
它争夺的，是下一代现实世界的组织方式。
到那时候，人们也许会发现：
小米最可怕的地方，从来不是它做出了一个多强的模型。
而是它最终让这个模型，长出了手，走进了工厂，开始真正干活。