《小米真正的野心：不是做 AI，而是讓 AI 進入物理世界》

真正改變時代的技術，從來不是更會説話的技術。
而是那些最終長出手、長出腳、接上設備、進入工廠、參與生產的技術。
過去兩年，幾乎所有科技公司都在講 AI。
有人講參數，有人講榜單，有人講推理成本，有人講 Agent。
但如果把時間稍微拉長一點，你會發現，真正決定一家企業上限的，不是它能不能做出一個爆款模型，而是它能不能把 AI 從屏幕裏放出來，讓它真正進入現實世界。
而小米現在最值得重估的地方，恰恰就在這裏。
很多人還把小米理解成一家手機公司，最多再加上一層 “造車公司” 的標籤。
但這已經越來越像一種過時的認知。
因為今天的小米，正在做的不是給舊業務加一點 AI 功能，而是試圖把模型、系統、硬件、機器人和工廠連成一條完整閉環。
這條閉環一旦跑通，小米爭奪的就不再只是手機份額、汽車銷量，甚至也不只是模型排名，而是現實世界的執行權。
先看 “大腦”。
MiMo-V2-Pro 這次最值得注意的，不是 “又發了一個模型”，而是它被小米官方明確定位為一款面向真實 agent 工作負載的旗艦基礎模型。官方頁面寫得非常直接：它不是為了做漂亮 Demo，也不是為了停留在問答層，而是要充當 agent systems 的大腦，去編排複雜工作流，推動生產工程任務，完成真正的執行型任務。也就是説，小米自己對 MiMo 的定義，已經不是 “聊天模型”，而是 “行動模型”。
更關鍵的是，這個 “大腦” 已經開始被市場驗證。
OpenRouter 的公開榜單顯示，MiMo-V2-Pro 在編程模型中排名第一，編程市場份額約為 31.7%，總使用量約 3.4T token。這意味着，市場最先為它買單的，不是陪聊能力，而是實用能力、工程能力和執行能力。換句話説，MiMo 這一步，小米已經不是在證明 “我也能做模型”，而是在證明 “我的模型已經開始能幹活了”。
這件事為什麼重要？
因為過去兩年，大多數 AI 競爭都發生在數字世界。
模型處理的是文字、代碼、圖像、語音。
它們當然很強，但本質上仍然停留在信息層。
可信息層從來不是終局。
AI 真正的下一階段，不會只是更聰明地回答問題。
它一定會繼續往前走：調用工具、操控系統、連接終端、驅動設備，最後直接作用於物理世界。
而小米現在展現出來的路線，正是這條路。
MiMo-V2-Pro 官方頁甚至直接寫出一句很值得反覆咀嚼的話：從 coding 到 claw。這句話的真正含義，不是營銷修辭，而是戰略方向——從會寫代碼，走向會控制 “手”。
再往下看，“身體” 也開始成形。
今天，雷軍在微博公佈了小米機器人團隊在靈巧手領域的新進展：小米機器人靈巧手採用了 “全掌觸覺手套”“仿生結構設計”“類人汗腺散熱” 等方案，已經可以完成擰螺絲、捏羽毛、拋接球等高精度、高泛化動作，並通過了 15 萬次抓握循環可靠性測試。雷軍還明確表示，希望通過不斷應用嘗試，最終讓機器人在工作站長時間部署中把作業成功率推進到接近 100%。相關財經媒體也同步報道了這一口徑。
這條更新的重要性，遠遠大於 “機器人又有新視頻了”。
因為在具身智能裏，真正難的從來不只是 “看見” 和 “理解”，而是精細操作。
粗放動作，靠機械結構和預設路徑，很多團隊都能做出來。
但像擰螺絲、捏羽毛、拋接球這種任務，考驗的是觸覺、反饋、控制、散熱、耐久性和動作泛化能力的綜合水平。
説得更直白一點：真正難的，不是讓機器人 “動起來”，而是讓它像一雙手那樣，細膩、穩定、長期地工作。
而小米現在補的，正是這雙手。
如果説 MiMo 解決的是 “大腦” 問題，那麼靈巧手解決的，就是 “末端執行” 問題。
一個模型再聰明，如果最後不能變成穩定、耐用、可部署的動作，它仍然只是雲端裏的聰明。
可一旦 AI 有了真正能在物理世界裏長期工作的手，它的價值就會徹底改變。
它不再只是解釋世界，而開始參與世界。
不再只是生成答案，而開始完成動作。
這時候，再把 “工廠” 放進來，整件事的輪廓就更清楚了。
小米官網近期發佈的內容，以及多家行業媒體的報道都顯示，小米具身機器人已經進入小米汽車工廠相關工位進行連續自主運行測試。公開報道提到，在一個裝配工位中，機器人連續運行約 3 小時，雙側安裝成功率達到 90.2%，並滿足 76 秒的產線節拍要求。與此同時，雷軍在兩會相關表述中也明確強調，要推動人形機器人在智能製造中的應用，從實驗階段走向大規模部署。
請注意，這一點極其關鍵。
今天談機器人，最容易犯的錯誤，就是把它當成下一代消費電子新品來想象。
好像只要外形夠酷、動作夠炫，就離商業化不遠了。
其實完全不是。
機器人最現實、也最有價值的第一站，從來都不是家庭，
而是工廠。
因為只有工廠，才有足夠標準化的動作、足夠高頻的重複、足夠明確的成本收益，以及足夠真實的反饋閉環。
誰能先在工廠裏把機器人跑通，誰才真正摸到了具身智能商業化的門檻。
而小米最危險的地方，恰恰在於它不僅有模型，也不僅有機器人，
它還有系統、終端、汽車和工廠。
很多公司只能解決其中一個環節。
有的公司有模型，但沒有終端。
有的公司有機器人，但沒有系統。
有的公司有工廠，但沒有智能底座。
有的公司有設備，卻沒有統一的調度中樞。
而小米正在做的，是把這些東西同時握在手裏：
MiMo 負責推理、規劃、Agent 化調度；
系統負責連接、調用、編排；
手機、IoT 和汽車負責提供真實入口與場景；
機器人負責把智能變成動作；
工廠負責提供最嚴格、最真實、最可量化的訓練場和驗證場。
再看基礎研究層面，小米也不是隻在講故事。
公開的 arXiv 論文和項目頁顯示，Xiaomi-Robotics-0 是一套 4.7B 參數的開源視覺 - 語言 - 動作模型，目標就是實現高性能、實時、平滑的機器人動作執行。論文裏給出的結果顯示，它在多個仿真基準上達到當前最優表現，比如在 LIBERO 上的平均成功率達到 98.7%。這説明，小米做的不是簡單的機器人硬件集成，而是在補具身智能裏最難、也最核心的一層：讓視覺、語言、動作形成端到端閉環。
從這個意義上説，小米的 AI 已經不是一個 “新業務”，
而更像是一場全棧重構。
過去，我們理解一家科技公司的方式很簡單：
做硬件的，按硬件看；
做軟件的，按軟件看；
做汽車的，按汽車看；
做 AI 的，按模型看。
但小米現在最有價值的地方，恰恰不是某一層單點有多強，
而是這些層開始互相加強、互相放大。
手機和 IoT 提供入口與分發；
汽車提供高價值、強場景、移動化的物理終端；
MiMo 提供推理和調度；
機器人提供執行；
工廠提供驗證和訓練。
這已經不是 “做幾個新業務” 了，
而是在構建一個新的工業智能閉環。
更直白一點説：
如果一家公司的 AI 只能幫你寫文案，它當然有價值；
但如果一家公司的 AI 能調用系統、指揮設備、協調機器人、參與制造，
那它爭奪的就不再只是流量和用户時長，
而是現實世界的執行權。
而執行權，往往比解釋權更值錢。
因為解釋權決定你怎麼理解世界，
執行權決定世界怎麼被運行。
當然，話也不能説得太滿。
像 “AIOS 將取代 HyperOS”“MiClaw 擁有 50+ 系統級原生 API 權限”“靈巧手尺寸、自由度、散熱和觸覺覆蓋的全部具體參數” 等更細顆粒度的説法，我這次沒有拿到足夠強的一手公開材料去完成獨立交叉驗證，所以這些點更適合當作後續觀察線索，而不適合作為這篇文章的論證主軸。相比之下，MiMo-V2-Pro 的公開定位與平台表現、雷軍今天披露的靈巧手 15 萬次測試、Xiaomi-Robotics-0 的開源論文、以及機器人進入工廠測試，這幾條主線是更紮實的。
所以，如果把這篇文章濃縮成一句話，我想説的是：
小米真正的野心，不是做一個更會聊天的 AI。
而是讓 AI 獲得系統、終端、機器人和工廠，最終進入物理世界。
這比 “又發了一個模型” 重要得多。
因為模型再強，如果只活在雲端，它改變的主要還是信息世界；
可一旦模型開始接入設備、驅動動作、進入製造，它改變的就會是現實世界本身。
而這，才是今天最值得重估的小米。
它可能是中國極少數，正在同時打通
模型層、系統層、硬件層、製造層
的公司。
如果這條路真的走通，小米未來爭奪的，就不只是手機市場、汽車市場，甚至也不只是 AI 市場。
它爭奪的，是下一代現實世界的組織方式。
到那時候，人們也許會發現：
小米最可怕的地方，從來不是它做出了一個多強的模型。
而是它最終讓這個模型，長出了手，走進了工廠，開始真正幹活。