06.09 MiMo × TileRT，要想富先修路

今天 MiMo × TileRT 联合发布 Xiaomi MiMo-V2.5-Pro 的 UltraSpeed 模式，通过模型与系统的极致 Codesign，在通用 GPU 上将万亿参数模型的生成速度首次突破了 1000 tokens/s。股价依然低迷看到这个消息，垂死病中惊坐起，还是挺欣慰的，感觉又有了写的动力。

端侧受益：手机、AIoT 最先感受到变化

最可能快速受益的是手机、AIoT 等受限于硬件、无法本地运行大模型的小设备。

以智能安防摄像头为例，目前端侧轻量模型完成一次人脸比对约需 200ms，精度有限；调用云端大模型辅助分析虽然更准，但响应通常需要 2-3 秒，用户体感明显卡顿。UltraSpeed 下，一个 200 token 的典型请求云端响应仅需约 0.2 秒， 精度上了一个台阶，延迟却降了一个数量级。

类似场景还有很多：智能门锁的人脸确认、智能音箱的多轮对话、翻译机的长句处理。当云端大模型的响应速度逼近端侧推理的量级时，一个关键的经济临界点就被突破了——"端侧小模型处理高频简单任务 + 云端大模型实时处理复杂任务"的分层架构，从可选方案变为最优解。

这对小米"人车家"生态的意义尤其大：这些场景目前大量停留在端侧规则编排阶段，智能化水平并不高。当每一个终端设备都能以接近本地的速度调用云端智能时，整个生态的智能化水平会整体抬升一个台阶。

智驾受益：目前主要影响生产端

对车端实时驾驶：目前还无法直接使用，因为智驾对延迟的要求是 80-100ms 级别，而且必须在无网络环境下稳定工作。UltraSpeed 的 0.2 秒响应仍然不够，车端推理仍是不可替代的。特斯拉凭借 AI5 自研芯片在车端直接运行大模型，这个硬件优势目前没有捷径可绕过。

但生产端意义比较大，小米和特斯拉的差别在于使用了 Thor 芯片，更多依赖于软件优化和云端大模型蒸馏。UltraSpeed 有两个特点，一个是让蒸馏效率提升约 10 倍，二是用的通用 GPU，也就是带来了性价比极高的云端迭代速度，在目前硬件采购和芯片博弈的阶段，先通过软件效率也能快速推进智驾水平。

未来趋势：要想富，先修路

MiMo 今年的发展速度确实惊人：年初 API 上线，4 月 2.5 版本，5 月大幅降价，今天又宣布 UltraSpeed 1000 tokens/s 模式试用，精准契合了硬件生态对 AI 的刚需。

从趋势看，具备自研大模型和自研芯片的能力，是未来 AI 产品的入场券。目前 MiMo 的优化已经相当出色，如果芯片能有更好的协同定制，再辅以 OS 在带宽和调度上的加持，未来的提升空间巨大。

AI × 芯片 × OS，是承载上层所有应用和体验的底层基础设施。很多事情按当前的常识看似乎不可能发生，但当推理成本足够低、速度足够快，突破临界点之后，常识就会被改写，产品力和竞争力也会随之变化。

小米在自研大模型、自研芯片、OS 优化三个方向上持续重投入，结合近期金山云增持进一步加强云端基础设施，想起了那句老话：要想富，先修路。

$小米集团-W(01810.HK)