賽道 Hyper | 小鵬機器人中心成立智能擬態部

華爾街見聞
2025.08.03 03:43
portai
我是 PortAI,我可以總結文章信息。

劍指機器人多模態領域,三大破局方向。

作者:周源/華爾街見聞

最近有消息稱,小鵬機器人中心新成立智能擬態部,將目光鎖定於機器人多模態領域,研究方向涵蓋具身智能原生多模態大模型、世界模型、空間智能等前沿範疇。

公開消息顯示,掌舵該部門的葛藝瀟履歷奪目。

葛藝瀟曾在騰訊 ARC Lab 擔任技術專家,年僅 28 歲便晉升為騰訊 T12 技術專家級,在多模態領域建樹頗豐,2023 年和 2024 年連續兩年榮膺騰訊技術突破獎。

在本科畢業於華中科技大學自動化學院後,葛藝瀟進入香港中文大學 MMLab 攻讀博士學位,聚焦計算機視覺中的表徵學習研究,在 NeurIPS、ICLR、ECCV 等國際頂級會議發表多篇論文。

當前包括葛藝瀟在內,該部門僅有 3 名成員,但這只是起步。目前該部門已開啓社招、校招和實習招聘,招聘崗位為 “研究科學家(多模態方向)”,從職位描述 “構建行業領先的具身智能原生多模態大模型、世界模型,具備應用於通用人形機器人乃至更多具身場景下的潛力”、 以及 “打造技術影響力,引領國際行業發展” 中,能深切感受到小鵬對這個新部門寄予的厚望。

三大研究方向

在機器人技術演進歷程中,傳統機器人在感知與交互層面存在明顯短板,僅能基於單一或少數幾種信息源開展工作,這極大限制了在複雜環境中的作業能力。

首先是具身智能原生多模態大模型的出現,有望從根本上改變這一局面。

這致力於賦予機器人全方位感知與交互能力,使機器人如同人類一般,能同步處理視覺、聽覺、觸覺等多元感知信息。

以家庭服務場景為例,當前多數家用機器人僅能執行簡單的清掃任務,面對複雜指令往往無所適從。

若具身智能原生多模態大模型取得實質性進展,機器人將可精準識別主人的語音指令、手部動作,同時感知周圍環境中的障礙物,進而流暢完成諸如收拾房間、照顧老人等複雜且細緻的任務。

在工業生產場景,機器人能綜合視覺識別零部件形狀與位置、觸覺感知裝配力度,實現產品組裝的高效與精準,顯著提升生產效率與質量。

從技術原理看,該模型需要突破多模態數據融合、統一表徵學習等難題,構建能對多種感知信息進行協同處理的架構體系,這對算法設計與算力支撐提出極高要求。

其次,世界模型的構建,旨在讓機器人通過觀察與交互,深度理解世界的運作規律。

過往機器人在執行任務時,嚴重依賴預設程序,面對環境變化或新任務時靈活性不足,而世界模型能幫助機器人推測感知未觸及的世界狀態信息,並對未來狀態變化做出合理預測。

在工廠環境中,機器人藉助世界模型,能深入瞭解工廠佈局、設備運行機制,提前預判執行操作時可能出現的問題,如零件供應延遲、操作流程衝突等,從而提前調整工作節奏與方式,提升生產效率與準確性。

當機器人置身新環境或面對新任務時,世界模型使其能依據已有知識經驗進行推理、嘗試,擺脱對預設程序的過度依賴。

比如在物流倉庫,機器人可依據世界模型理解貨物存儲規則、搬運流程,在貨物擺放位置改變時,迅速規劃新的搬運路徑,高效完成貨物搬運任務。

從技術實現角度,世界模型需要整合大量環境數據,運用機器學習、強化學習等方法構建能準確反映環境動態變化的模型結構,實現對複雜環境的精確建模與預測。

第三,空間智能聚焦於機器人對三維空間信息的精準理解與高效運用。

在物流倉儲、建築施工等實際場景中,機器人需要對三維空間中的物體做精準感知與操作。

目前,多數機器人在空間感知與操作上精度有限,難以滿足複雜任務需求。

具備強大空間智能的機器人能精確判斷物體的位置、形狀、大小及其空間關係,高效完成各類空間任務。

在建築施工現場,機器人可藉助空間智能識別建築材料位置,規劃吊運路線,精準完成材料運輸,避免與施工人員、其他設備碰撞;在物流倉儲中,機器人能快速定位貨物存儲位置,優化貨物搬運路徑,提高倉儲空間利用率與貨物出入庫效率。

從技術層面剖析,空間智能涉及三維視覺感知、空間推理、路徑規劃等多個關鍵技術環節,需要研發先進的傳感器技術、算法模型以及實時計算能力,以確保機器人能實時、準確地處理複雜的空間信息。

多模態的戰略價值

小鵬汽車董事長何小鵬今年 3 月透露,小鵬汽車已在人形機器人產業深耕 5 年,未來可能還需投入 20 年,計劃投入 500 億元甚至上千億元。

何小鵬還提到小鵬汽車計劃 2026 年量產面向工業場景的 L3 級人形機器人,實現手、腳、眼、腦全向協同能力。

在 5 月財報電話會議上,何小鵬披露將在第五代機器人上部署圖靈芯片,大幅提升機器人端側算力,並跨越行業常用的強化學習小模型和分段式端到端技術路線,直接複用小鵬物理世界基座模型的 VLA 架構,充分利用雲端 AI 基礎設施,提高機器人智能水平。

此次成立智能擬態部主攻多模態,是小鵬在機器人領域長期戰略佈局的關鍵落子。

多模態技術堪稱提升機器人智能的核心要素,它打破了傳統機器人感知與交互的侷限,讓機器人從多個維度感知世界,獲取更豐富、全面的信息,進而做出更合理、智能的決策,極大拓展了機器人的應用場景與實用價值。

從戰略層面看,小鵬通過聚焦多模態技術,有望在機器人領域構建差異化競爭優勢,為未來在智能出行、家庭服務、工業生產等多領域的拓展奠定堅實基礎。

具身智能原生多模態大模型、世界模型、空間智能等研究方向處於行業前沿,技術難度極大。

在算法優化方面,需要突破現有算法侷限,開發能高效處理多模態數據、實現精準預測與決策的新算法;算力支持上,面對海量數據處理與複雜模型運算需求,當前算力水平捉襟見肘,亟待提升硬件性能與優化計算架構。

還有數據質量,高質量、多樣化且標註精準的數據是模型訓練的基石,但獲取與整理此類數據面臨諸多困難,如數據採集成本高、標註準確性難以保證等。

從行業競爭態勢看,機器人領域技術路線競爭激烈,各大企業與科研機構紛紛佈局。

小鵬以多模態為切入點,雖避開部分與巨頭的正面交鋒,但該技術路徑的可行性尚未得到充分驗證,發展成果存在不確定性。

但要是一旦小鵬在多模態技術上取得突破,將可能重塑行業格局,推動機器人行業向更智能、更高效的方向發展,為行業發展注入新活力與思路。