人形機器人 - 等待 “Scaling Law” 時刻

華爾街見聞
2025.09.03 00:20
portai
我是 PortAI,我可以總結文章信息。

在 2025 年秋季策略會上,討論了人形機器人領域的 “Scaling Law” 時刻及其在工業應用的前景。當前機器人產業處於投資前期,面臨硬件成本高和智能不足的挑戰。未來需關注機器人大腦的智能湧現,以推動產業加速發展。主流的工程路徑為大小腦路線,結合預訓練大模型與輕量控制小模型,以應對當前技術限制。國內對具身智能大模型的開發日益重視,行業參與者積極構建軟硬件生態平台。

核心觀點

8 月 27-28 日我們組織了 2025 年秋季策略會,在人形機器人論壇上討論了機器人的 “Scaling Law” 時刻、本體在工業場景落地的應用前景和解決方案、以及機器人開放平台的必要性。

核心亮點:

1、目前機器人處於產業趨勢投資前期,我們認為初期訂單數並不構成關鍵信號,核心在於能否解決人形機器人核心卡點:1)硬件成本高、結構複雜且未定型;2)大腦不夠智能。硬件層面,以國內製造業企業大規模入場為基礎,伴隨特斯拉 Optimus 3 後續發佈,硬件成本非線性下降和定型或快速突破。而軟件層面,當前模型範式向雙系統分層 VLA 收斂,但尚未出現機器人大腦的 “ChatGPT” 時刻。我們認為後續需重點關注機器人的大腦 “Scaling Law” 的智能湧現,有望真正意義上推動人形機器人的正向飛輪啓動,產業開啓非線性提速。若機器人在多個垂直場景出現持續性需求,有望加強市場對遠期市場空間的信心和認可度,從而跳脱出 “邊際變化”+“百萬台終局估值法” 的投資範式。

2、大小腦路線是目前機器人大模型工程落地的主流。我們認為在幾大機器人模型中:1)非端到端模塊化模型借清晰鏈路與低成本攻佔垂直場景,但由於其規則剛性,難以泛化。2)端到端 VLA 依賴海量數據,性能上限最高,但受制於訓練技術、硬件儲備、實時與可控門檻牽制。3)大小腦路線:將預訓練大模型用作 “思考” 系統,以輕量控制的小模型完成思考到動作的 “反射”,是考慮當前有限算力、任務成功率、數據效率、實時性、可解釋性等要求下的最均衡的工程路徑。國內目前愈發注重具身智能大模型的開發,行業重要參與者包括專注具身智能模型範式開發和迭代的企業(本體公司、和專注具身智能大模型開發的企業),也包括開發平台化企業,牽頭打造機器人行業軟硬件生態平台。目前國內具身大模型企業逐步收穫融資青睞。

3、我們認為機器人落地場景率先在科研、教育、導覽、展示表演等 ToG 場景。目前頭部人形機器人廠商可在 ToB 工業製造場景執行相對簡單且重複性的勞動,隨着產業泛化能力提高,B 端場景成為機器人商業化深水區的第一站。以服裝製造為例,全球服裝縫紉工人約 6,000 萬人,存在工作時長、薪資帶來的招工困難等問題,過去工業機器人在服裝製造業應用較少,原因在於服裝面料柔性、工藝非標、款式更新快,傳統自動化編程的模式難以匹配。近年來大模型快速發展,端到端架構擺脱了編程過程,使得後續許多非標勞動替代成為可能。

正文

核心觀點:在 2025 年 6 月 6 日發佈的《2025 年中期策略會速遞——人形機器人論壇:產業化步入深水區》中,我們深度覆盤了 2022 年以來人形機器人的行情。我們發現伴隨產業進度不斷加快,市場至今已深度認可人形機器人的遠期賽道空間。從 2022 年特斯拉進軍人形機器人賽道開始,行情經歷過幾輪起伏,但均是以龍頭的機器人進展公佈和更新催化帶動的主題行情。而從 4Q24 開始,隨着特斯拉以及國內機器人公司開啓初步量產,市場已提前計價其滲透率躍升預期,疊加顯著的預期前置效應,推動行情快速跨越純主題階段,當前我們將其定位為產業趨勢投資前期。

從早期的純主題行情向趨勢行情切換,我們認為底層邏輯在於產業進度不斷加快,加強了市場對人形機器人的遠期市場空間的信心和認可度。2024 年底-2025 年初,機器人行情演繹的核心產業本質在於:機器人產業開始邁入實際小批量生產階段。然而由於目前機器人大腦尚未體現出明顯的智能能力,初步的量產需求更多來自於應用和測試等探索目的,訂單需求持續性有待觀察。

從產業趨勢上看,目前人形機器人的卡點在於:1)硬件的降本和非標化;2)大腦的智能。我們認為隨着今年開始中國產業鏈公司大規模佈局人形機器人賽道,以投資、併購等多種方式進行業務拓展,中國製造業企業入場有望帶來硬件成本非線性下降,硬件的卡點或不是核心難題。更重要的在於 AI 賦能下的機器人大模型創新,大腦有望跟隨 AI 的 “Scaling Law” 範式實現智能泛化,有望真正開啓產業趨勢的提速。我們認為,若機器人行情想要復刻歷史新能源車、智能手機等新興智能終端的產業投資趨勢,初步信號或在於形成了較成熟的硬件方案並開始在簡單工業場景和特種應用場景落地(具備初步的泛化能力),初步信號或有望在未來兩年出現。重點關注國外特斯拉和 Figure、包括國內頭部企業帶來的機器人大腦 “Scaling Law” 進展。

機器人的 “Scaling Law” 或開啓產業新一輪浪潮

隨着 AI 進入推理時代,大模型誕生思維鏈等能力,有望開啓端側產品的新一輪改造和創新週期。在眾多端側產品當中,相較於音響、眼鏡、相機、手機、PC 等,機器人是不僅需要大語言模型賦能,更需具備自主移動或行動能力的具身智能載體。但由於人形機器人硬件結構新穎、複雜且未定型,需要 AI 大模型改造的創新週期也相對更長。

卡點一,硬件方案成本高,未收斂且缺乏標準。目前特斯拉機器人的 BOM 依舊較高,根據特斯拉 AI Day,特斯拉機器人目標未來降至 2 萬美金/台,關節模組、靈巧手、六維力等高價值量環節是降本核心。而各家人形機器人廠商在關節執行器、靈巧手、傳感器的方案各不相同,如行星滾柱絲槓直線關節方案、微型絲槓/連桿/繩驅手部方案、軸向磁通/無框力矩電機電機、減速器等成為技術差異化的競爭點。

卡點二:軟件缺乏強大的模型表徵能力 + 高質量大規模數據。軟件需要強大的模型表徵能力 + 大規模高質量的數據(高效收集真實場景且對於算法模型有用的數據)。大腦泛化依賴數據以及小腦運控和硬件耦合,而機器人運動和操作的數據模態更復雜,需要從頭開始定義數據,還要在真實環境里長期、大規模採集。大模型前,大腦的任務定義、拆解和運動代碼生成是工程師做的,感知決策大模型將複雜的任務分解為一系列動作指令,交由操作大模型逐一執行;小腦算法是基於模型預觀控制(MPC)和基於動力學模型的下層全身關節力控(WBC)為主。大模型後,趨向仿真/真實環境中強化學習 + 模仿學習。軟件迭代缺乏高質量、低成本、大規模的數據集,但採數難點在於數據採集成本高、數據泛化難度大、專用場景數據缺失、缺乏統一的數據標準。

人形機器人實現創收與出貨難度不大,關鍵是難在批量化生產和大規模落地實際應用。2025 年以特斯拉為代表的頭部人形機器人在特定場景實現了小批量量產和初步商業化,國內已有多家人形機器人本體企業宣佈完成交付百台至千台。但深究交付場景,目前除了少數頭部企業外,全球真正實現雙足人形機器人商業閉環的公司較為稀缺,商業化交付走在前列的企業大多在小數量戰略合作、數據採集、展示表演場景,雖短期創收可觀,但訂單持續性或有待觀察。同時在當前數據採集、科研科教、展示表演等出貨量較大的場景中,多為科研和場景訓練等對泛化能力要求不高的需求,採購方在本體基礎上進行算法研發,而本體公司更側重於硬件賣鏟人角色,並沒有在軟件層面實現技術突破。

因此,我們認為產業初期交付訂單數並非關鍵指標,核心仍在於能否初步形成正確模型範式和數據飛輪。我們認為人形機器人的正向飛輪應為:大腦初步泛化→量產場景打開→硬件規模化降本→數據採集量提升→模型訓練加強→“Scaling Law” 有望體現帶來大腦更加智能→進一步打開需求。我們目前觀察到,頭部人形機器人企業一方面開始落地 VLA 大模型,另一方面已經在一些對精度和作業能力要求相對較高的工業廠家做探索,進行真實數據的採集和模型的訓練。

從產業趨勢上看,美國公司特斯拉和 Figure 等,包括國內頭部企業引領機器人大模型創新方向,大腦智能隨着 AI 的 “Scaling Law” 範式有望實現非線性提速;中國產業鏈公司大規模佈局人形機器人賽道,以投資、併購等多種方式進行業務拓展,國內製造業企業入場有望帶來硬件成本非線性下降。隨着軟硬件迭代加速,人形機器人有望正式開啓產業趨勢的提速,類似於處於應用前期的智能手機、新能源汽車等大賽道,隨着功能逐步完備和需求刺激,有希望在未來幾年帶來需求的非線性增長。

從模塊化到端到端 VLA,機器人大模型或趨近收斂

機器人大模型沿着模塊化到端到端路徑發展,VLA 或將在產業界趨近收斂。隨着大語言模型(LLM)以及多模態大語言模型(MLLM)的進步(,利用其能力來實現機器人的任務規劃和運動控制變得更加可行。覆盤學術界和產業界的機器人大模發展,我們認為主要分為 3 條技術路線:非端到端的模塊化模型、端到端 VLA 模型和雙系統分層 VLA 模型。

雙系統分層 VLA 模型:產業界的主流選擇

雙系統分層 VLA 模型或是當下產業界的首選架構,Figure Helix 等是典型代表。雙系統分層 VLA 模型依然在 VLA 範疇內,採用異構模塊(大模型對應大腦,小模型對應小腦)分工的架構,以結合大模型的認知能力和小模型的實時控制能力。Figure、智元機器人、Nvidia 和 Google 均在大小腦結合的 VLA 模型上有建樹,推動產業落地。

Figure HelixVLA 由快慢兩個系統組成,類似人類的大腦和小腦。2025 年 2 月,Figure 發佈了第一個對整個人形上半身(包括手腕、軀幹、頭部和單個手指)進行高速連續控制的 VLA——Helix,具有良好的泛化能力,支持端側運行。VLM 主幹是通用的,但不是快速的,而機器人視覺運動策略是快速的,但不是通用的,Helix 則通過兩個互補的系統來解決這種權衡。Helix 經過完全端到端訓練,從原始像素和文本命令映射到具有標準迴歸損失的連續動作,只有單個訓練階段和一組神經網絡權重。

1)慢系統也叫系統 2(S2),是經過互聯網數據預訓練的端側 VLM-7B,以 7-9Hz 的頻率運行,用於場景理解和語言理解,實現跨對象和上下文的廣泛泛化。系統 2 可以使用開源的 VLM,基於互聯網規模的數據進行預訓練,將機器人圖像和機器人狀態信息(包括手腕姿勢和手指位置)投影到視覺語言嵌入空間後對其進行處理。VLM 處理來自機載機器人攝像頭的分段視頻剪輯,並提示(prompt):“你會給機器人什麼指令來讓這個視頻中的動作出現?” 結合指定所需行為的自然語言命令,S2 將所有語義任務相關信息提取到一個連續的潛在向量中,傳遞給 S1 以調節其低級別動作。

2)快系統也叫系統 1(S1),是一個 80M 參數交叉注意力編碼器 - 解碼器 Transformer,用於處理低級別控制,其預訓練完全在仿真環境中進行。S1 本質是一種快速反應性視覺 - 運動(visuomotor)策略。來自 S2 的潛在向量被投射到 S1 的 token 空間中,並與來自 S1 視覺主幹的視覺特徵沿序列維度連接,提供任務調節。S1 以 200Hz 的頻率輸出完整的上半身人形控制,包括所需的手腕姿勢、手指屈曲和外展控制,以及軀幹和頭部方向目標。

大小腦路線是目前機器人大模型工程落地的主流,端到端 VLA 是機器人通用 AGI 的遠景。我們認為,非端到端模塊化模型借清晰鏈路與低成本攻佔垂直場景,但由於其規則剛性,難以泛化到開放任務。端到端 VLA 依賴海量數據,性能上限最高,但受制於訓練技術、硬件儲備、實時與可控門檻牽制。相比較而言,大小腦將預訓練大模型用作 “思考” 系統,以輕量控制的小模型完成思考到動作的 “反射”,在有限數據與算力下較好實現任務成功率、數據效率、實時性等要求,並保留可解釋接口,因而成為當下最均衡的工程路徑。若未來算力芯片效率/功耗持續優化、低成本大規模機器人數據生成被實現、大模型可解釋技術得到突破,從第一性原理出發,端到端 VLA 或許依然是最優選擇,能夠最大程度實現跨場景泛化,而大小腦則充當橋樑,引導產業穩步過渡。

產業開始加大力度專注具身智能大模型開發

國內資本開始從硬件本體湧向具身智能大模型。作為通用機器人技術核心的具身智能算法即大模型,早期國內重視程度不如國外,本體廠商更受資本青睞,佔據具身智能賽道絕大多數融資份額,科技大廠多是推出非具身智能大模型,對具身智能大模型研發投入有限。國外科技大廠對具身智能大模型重視程度高,入局時間早(如谷歌、英偉達等;谷歌已完成多次技術迭代,從 Saycan 到 RT-H),具身智能大模型初創企業備受資本青睞,如 SKid AI 成立一年,於 2024 年 7 月完成 3 億美元融資,投後估值達到 15 億美元;Phvsical inteligence 成立一個月,完成 7000 萬美元融資,於 2024 年 11 月完成 4 億美元融資,投後估值約 24 億美元;Covariant 高管於 2024 年 8 月起陸續被亞馬遜僱傭(“人才收購”)。國內具身大模型賽道企業在 2024 年迎來融資潮流,2024 年下半年以來多傢俱身智能大模型初創企業如千尋智能、穹徹智能等均獲得億級人民幣融資敲定。

後續軟件方向的重要參與者,除了專注具身智能模型範式開發和迭代的企業(包括本體公司、以及專注具身智能大模型開發的企業),我們認為也離不開做平台化能力的企業。機器人開發門檻高、選型匹配難、多機協同調度及軟件使用難是軟件開發和工程化落地過程中的普遍門檻。典型難度如:1)眾多視覺感知零部件選型眾多,涉及激光/視覺 SLAM 算法各不相同;2)很多應用場景缺乏落地數據和生態鏈工具。部分企業如仙工智能,以機器人控制器作為切入,做 “機器人大腦” 的開發平台,合作多個下游本體和零部件廠商,為機器人具身智能大模型搭建了開發平台,節省了重複工作的時間、提升行業開發效率。

商業化:多元應用場景逐步出現

我們認為機器人落地場景率先在科研、教育、導覽、展示表演等 ToG 場景,中期落地 ToB 場景,是雙足機器人商業化深水區的第一站,遠期再落地 ToC 場景商業化,ToC 市場空間大、非標程度高,或是人形機器人的終極市場。從落地難度和市場規模排序看,To C >To B >To G。

①ToG:科研院校此類 ToG 場景落地難度較低,科研院校採購機器人更多出於科研和場景訓練,對泛化能力要求不高,本體公司不需實現軟件層的技術突破,但可較快落地少量交付訂單,目前已成為諸多創企優先切入的場景(基於先發和生產能力優勢,國內宇樹科技旗下 Unitree H1 已成為全球科研院校和 AI 公司優選產品,24H2 公司已全球發貨)。目前本體價格在持續下探,如眾擎 SA01 售價 4.2 萬元、松延動力 N2 售價 3.99 萬元,宇樹 R1 售價 3.99 萬元。

②ToB:目前頭部人形機器人廠商可在 ToB 工業製造場景執行相對簡單且重複性的勞動,此類場景任務相對固定、場景屬於半開放狀態,機器人需具備一定的泛化能力。目前率先落地商業化的 Agility Robotics,其 Digit 在工廠中執行任務包括從 AMR 上拾取手提袋,再將手提袋放到傳送帶。我們認為隨着產業泛化能力提高,B 端如紡織、工業製造、汽車智能製造、倉儲物流、安防巡檢等結構化場景或成為機器人商業化深水區的第一站。

③ToC:ToC 對人形機器人泛化要求更高,該場景存在較多幹擾項且場景複雜,且不同羣體不同需求對機器人的適配性要求高,因而對模型訓練的泛化能力要求更高。

任務執行從標準化邁向非標化,商業化機會從聚焦垂類場景走向半通用場景。B 端有望成為商業化深水區的第一站:一是需求側,若算法規劃、多模態感知及任務調度能力逐步積累,機器人持續拓展非標任務能力,B 端剛需替代空間或優先釋放,形成產業早期放量基礎;二是成本側,隨着本體廠潛在需求釋放、向供應鏈下達訂單,硬件製造釋放規模效應可助推機器人制造成本進一步下探,從而進一步提升機器人滲透率。我們認為,2030 年前後 B 端應用有望進入裝配、分揀、質檢、柔性搬運等生產環節,C 端預計先在安全看護、護理輔助與家務協作等需求明確、高頻剛需場景落地,2035 年前後,機器人在 B 端有望與 AGV、機械臂等自動化系統形成柔性產線協同體系,在 C 端的複雜家庭環境逐步應用,部分高危環境作業場景也將進入全流程機器人化階段。

場景:服裝製造人形機器人應用大有可為,龍頭企業產品規劃清晰

全球服裝製造年人工開支達萬億,AI 發展使其機器替代成為可能。根據縫製機械協會,過去 8 年我國工業縫紉機內需 + 外銷合計約 5700 萬台,意味着全球工縫保有量近 6000 萬台,假設按照人機比 1:1 的比例推算,對應目前全球縫紉工人數量在 6000 萬人左右,按 3~4 萬/年的人均薪酬估算,服裝製造業年人工開支在萬億人民幣量級,而工業縫紉機設備市場規模僅在百億量級,意味着機器替代空間仍很大。雖然用工規模很大,但過去工業機器人在服裝製造業應用較少,原因在於服裝面料柔性、工藝非標、款式更新快,傳統自動化編程的模式難以匹配。近年來大模型快速發展,其端到端的架構擺脱了編程過程,使得許多非標勞動的替代成為可能。

人形機器人與傳統自動化有機結合,服裝製造無人化行將致遠。與傳統工業機器人相比,AI 雖然使得人形機器人具備一定泛化能力,但在最後一公里的精度控制/成功率上目前仍存在侷限。以傑克科技在服裝製造無人化的佈局為例,對於服裝製造工藝中如貼袋等較為複雜的 A/B 類工藝,公司先通過自動縫製單元、模板機等自動化產品實現去技能化,同時增強模板技術的柔性以拓寬模板機的使用場景,最後用人形機器人產品執行縫製以外剩下的上下料勞動。目前公司人形機器人夾爪已能從多層面料中準確分離單層面料,解決了面料抓取難題。公司自主人形機器人已完成產品原型開發,擬加快其在服裝產業的批量化應用。

本文作者:謝春生、謝春生等,來源:華泰睿思,原文標題:《華泰 | 聯合研究:人形機器人 - 等待 “Scaling Law” 時刻》,內容略有刪減。

風險提示及免責條款

市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。