Dolphin Research
2026.01.20 09:20

人形機器人:為何靈巧手是邁不過去的門檻?

portai
我是 PortAI,我可以總結文章信息。

人形機器人:為何靈巧手是邁不過去的門檻?

上篇海豚君對人形機器人產業鏈各環節做了詳細梳理之後,本篇重點研究一下靈巧手,海豚君關注幾個關鍵問題:

1)探討靈巧手為何重要?

2)靈巧手的產業瓶頸到底在哪裏?

3)這些瓶頸的解決意味着怎樣的風險與機會?

4)靈巧手未來的方向是什麼,可能的商業化路徑?

廢話不多,直接上正題:

一、為什麼要關注靈巧手?

對於人形機器人,馬斯克及$特斯拉(TSLA.US) 曾反覆強調靈巧手的難度及價值。在此前多個 Optimus 人形機器人的演示視頻中,我們也可以看到,市場期待也是手部動作的進展。

同時,人形機器人整機廠,尤其是中國大陸整機廠商,一年多以來運動控制上炫技頻頻,從只會轉手絹,迅速進化為跳舞打拳樣樣精通,動作流暢度已經讓大部分人類自嘆不如了。但我們是否有注意到,這些炫酷動作主要集中在身體關節,基本上沒有用到手。

這當然不是手不重要,反而説明手部動作的實現難度遠大於身體關節。

手有多重要呢?我們可以想象一下,一台只裝了假手的人形機器人,不管身體關節如何靈活,如果它沒有靈巧的雙手,那麼相較於輪、足機器人,甚至最普通的工業/協作機器人,也強不到哪裏去。

所以手,其實是人形機器人上最關鍵的部位。但從產業化的角度,手的實現難度的確很大。

舉個簡單的例子:當人類決定用手抓取東西時,依據是什麼信息呢?

首先是視覺信息,我們用眼睛看到一個物品,然後,我們可以利用獲取到的視覺信息,疊加我們的思考,來判斷這個東西的位置、距離、種類以及性質等。

然後我們開始實施抓取動作,在這個過程中,觸覺開始發揮作用。首先,我們的手指開始接觸這個物品,然後,我們通過手指的觸覺神經,來獲取這個物品的重量、軟硬、温度以及摩擦力等信息,最後我們開始實施抓取,可以想象,對於光滑的或者粗糙的物品,我們抓取它們的方式顯然是不同的。

另外,這裏觸覺所獲取信息的精細度也與視覺不同,比如對於一根纖細的動物毛髮,我們通過視覺可能很難捕捉到它,但如果用手指觸摸,卻能很容易感受到它的存在。

圖:Optimus 抓取雞蛋及應用觸覺傳感器

來源:特斯拉,海豚研究

通過以上表述,我們能夠簡單理解靈巧手的難度了,那麼要想使得靈巧手實現這樣的能力,瓶頸又在哪裏?

二、靈巧手的瓶頸在哪裏?

這裏我們分為硬件和軟件兩部分。簡單來説,硬件難點在硬件集成多模態感知融合,軟件在大模型算法架構數據量積累

1、硬件角度,難點主要體現在高空間集成和多模態感知

(1)空間集成難度大

例如在特斯拉 Optimus 2.5 方案中,需要在極小空間內塞下 20 多個自由度所需要的零部件,包括電機、齒輪箱、微型滾珠絲槓以及腱繩等,且這些零部件需要滿足高功率密度、高精度、高可靠性、高壽命以及低成本等要求。

(2)對感知要求高,需大量且多模態的傳感器,其中難點最大的還是觸覺

這裏涉及到傳感器,尤其是觸覺傳感器。關於傳感器,我們在此前的人形機器人報告中談到過,一方面需要滿足高精度要求(要求數據一致性,且不能有性能漂移),一方面需要將不同知覺信息融合,那麼就對多模態感知融合能力要求極高,這需要克服不同模態的固有差異。

以上是硬件障礙,但這只是一方面,軟件同樣存在障礙,且這個障礙可能需要更長的時間來解決。

2、軟件角度,主要在大模型算法架構和數據量的積累

這裏我們可能會產生疑問:靈巧手只是一個執行器總成,是硬件,與軟件有什麼關係呢?其實不完全是這樣的:

(1)算法:瓶頸之一

人形機器人的算法仍然處在動態演進階段,技術路線尚未收斂。但整體而言,在大腦部分,採用端到端大模型是普遍認知,儘管採用何種類型、何種架構的大模型還未有共識。

與大腦相對應的是小腦,大腦負責感知 - 推理 - 決策,小腦負責接收命令並執行,這是通常我們從概念上所理解的,人形機器人的算法架構。

那麼問題是,既然大腦需要大模型,小腦需大模型嗎,或只使用傳統算法就足夠滿足需求?以及,這裏的大腦和小腦要被放置在哪裏,是在雲端還是人形機器人頭部或身體中央,還是可以將一部分配置在手部之類的邊緣端?就以上問題,目前並沒有形成標準解法。

那麼對應靈巧手而言,它就不再是一個純硬件,而是需要有軟件植入其中,且這裏的軟件大概率不只是一個傳統的、小型的運動控制算法。也就是説,人形機器人所面臨的算法挑戰也正是靈巧手所面臨的算法挑戰,這是其一。

其二,在人形機器人的整套算法體系當中,對於靈巧手的控制是核心難點之一。如果想讓靈巧手模仿人類手實施抓取動作,正如上文談到,需要以多模態的感知輸入為基礎,那麼這對算法的多模態信息的融合能力要求極高。

總之,靈巧手的研發必須與算法深度融合,絕不僅僅是一個孤立的模塊。

(2)數據量:幾乎是目前面臨的最大瓶頸

人類動作的數據採集與標註極其複雜且成本高昂,對數據準確性的要求極高,而目前人形機器人所積累的數據量遠遠不足。

這裏做個對比,我們可以想象在智能駕駛領域,行業能夠收集到的數據量等級,然後再與人形機器人相比較,目前新能源汽車全球年銷量即將突破 2000 萬輛,顯然相較於機器人,智能駕駛能夠積累的數據量要多得多。

但即便如此,智能駕駛卻還沒有完全走向成熟。與此同時,人形機器人的感知更復雜、執行更復雜,所需要的數據體量預計也會遠大於智能駕駛。那麼可以想象,數據量對行業構成了多大的限制。

而數據量瓶頸,主要制約的是靈巧手的能力。我們在上文已經談到,身體關節的複雜動作,人形機器人已經能夠在一定條件下實現,但手還差得很遠。

當然,除使用真實世界數據以外,仿真等方式也可被用來做訓練,但這卻更能體現靈巧手的瓶頸,因為仿真數據有明顯邊界。目前隨着英偉達 Isaac Sim 等平台的物理引擎越來越逼真,人形機器人絕大部分的基礎步態訓練的確可以在虛擬世界進行,且成本已有所降低,但是諸如材質摩擦性質等差異微妙的長尾場景,以及涉及複雜交互的場景,仿真仍然很難完美模擬,而這些場景主要涉及靈巧手的操作。

表:幾種訓練方式的優劣勢對比

以上是我們對靈巧手行業的簡要分析,接下來讓我們把視角轉向硬件環節的投資機會。

三、哪些硬件比較重要,它們涉及哪些上市公司?

靈巧手在硬件上的技術路線並未收斂,各家整機廠商仍在探索。而領頭羊,或者説起燈塔作用的,仍然是特斯拉的 Optimus。此前特斯拉展示的 Optimus 最新版本,在執行器上大體採用電機 + 行星齒輪箱 + 微型絲槓 + 腱繩的結構,那麼我們以此為基礎對硬件進行一番梳理。

表:執行器技術路線比較

(一)首先,我們先來拆解一下這個結構:在這個靈巧手結構當中,每隻手的手部有 22 個自由度,自由度可以理解為關節,在這其中有 17 個是主動自由度,就是説這些自由度由執行器去主動控制,也就是上文所説的電機 + 行星齒輪箱 + 微型絲槓 + 腱繩的結構。

圖:靈巧手以及手腕的自由度

來源:特斯拉,海豚研究

其中:

1、電機:動力單元,提供原始動力,它們被佈置在手臂位置,早期版本是採用 6 個空心杯電機,但考慮到 2.5 版本已經增加到 17 個主動自由度,所以使用的電機大概率遠超 6 個,根據產業鏈信息,既可能採用空心杯電機,也可能採用無刷齒槽電機。

2、行星齒輪箱:也在手臂位置,與電機連接,也可以叫做行星減速器,用來減速並增加扭矩,與身體旋轉關節的作用類似。

3、微型絲槓:連接行星齒輪箱,將旋轉運動轉化為直線運動,同樣在手臂位置。為什麼有行星齒輪箱了還要配置絲槓?主要是基於體積、精度、壽命等因素考慮。

4、腱繩模塊:連接絲槓螺母和手指,穿過手掌,將絲槓產生的直線拉力傳導到手指,這當中,主動關節和被動關節都需要通過腱繩來連接。

那麼靈巧手關節的驅動過程顯而易見:接收到小腦發出的指令後,電機開始轉動,動力傳導到行星齒輪箱,再傳導到微型絲槓,再傳導到腱繩,最後傳導到手指,在這裏,腱繩類似於人類手部分佈在手掌和手指位置的肌腱。

圖:Optimus 的手臂

來源:特斯拉,海豚研究

另外還有各類傳感器,其中觸覺傳感器在較早版本中主要分佈在五指指尖,每隻手有 5 個,最新版本預計已經把覆蓋範圍擴展到整個手掌,數量上看預計遠大於 5 個。

(二)產業鏈環節和硬件,以及相關公司

1、觸覺傳感器

關於觸覺傳感器,我們在此前的人形機器人報告中已經做過分析,此處不再贅述,僅談談未來的變化。一方面,觸覺傳感器的面積和數量預計將繼續增加,由指尖擴展到整個手掌;同時,技術路線也在變化,可能由壓阻式進化為壓阻式和電容式相結合的混合方案。

不過有一點值得提示,目前即便是精度較高的電容式方案,想要還原紋理等極精細的接觸力學數據,還是存在困難,所以技術路線還有可能進一步演進。

2、執行器硬件:電機、行星齒輪箱和微型絲槓

上篇文章也已經談過,這裏也僅談談可能的變化:未來電機可能由空心杯電機過渡到無刷有齒槽電機即微型無框電機,主要基於降本目的,但再往後電機方案仍可能發生變化;絲槓可能由微型滾珠絲槓進化為行星滾柱絲槓,主要基於精度、負載以及壽命要求。

3、腱繩

腱繩是特斯拉最新方案的重要組件,腱繩的主要難點在材料:從腱繩所發揮的功能我們可以看到,其與其他零件的最大差異在於,它不是剛性的,而是可以發生形變的,這會導致以下問題:(1)可能發生蠕變,即會隨時間發生變形且不可恢復;(2)在驅動過程中會產生彈性形變,導致遲滯效應;(3)會磨損甚至斷裂,影響負載能力,影響壽命。

目前,主要採用金屬或高分子纖維材料(典型如 UHMVPE),其中 UHMWPE 被產業認為是更適合於量產的方向。目前 UHMWPE 產品最領先的是荷蘭皇家帝斯曼集團,其他生產商主要是美國霍尼韋爾國際公司、日本東洋紡織株式會社、三井化學株式會社等,中國大陸有部分企業也取得一些進展,處於驗證階段,包括南山智尚、同益中、恆輝安防等。

表:不同方案腱繩材料對比

圖:某種腱繩混合方案的工作機制示意

來源:《Finger Unit Design for Hybrid-Driven Dexterous Hands》, Chong Deng, et al., Dolphin Research

4、總成環節

此前我們在三花智控的報告中談過,特斯拉傾向於將執行器總成環節交給供應商來生產,而不是採購零部件自己組裝,靈巧手同樣也是總成思路。

目前已經有多家中國大陸企業在推進與特斯拉在靈巧手上的合作。根據產業鏈反饋的信息,目前進展較快的包括新劍傳動(手部絲槓及手部總成)、浙江榮泰(手部絲槓及手部總成)等,其他有潛力的還包括特斯拉的總成供應商如拓普集團、$三花智控(02050.HK) 等。

5、獨立開發靈巧手的公司

人形機器人產業的確加速了靈巧手低成本方案的成熟落地。但靈巧手作為一個完整模塊,並不完全依附於人形機器人本體而存在,試想靈巧手安裝在輪足機器人上、機器狗背上、甚至工業機械臂上,也能實現一定功能。

全球有多家公司選擇專注於靈巧手的研發和生產,我們簡單梳理這些公司,儘管它們基本都未上市,但以之為參考,可以觀察靈巧手技術的演化和收斂方向。

表:靈巧手公司梳理

(三)風險在哪裏?

1、技術路線未收斂

靈巧手的技術路線並未收斂,換句話説,目前靈巧手的技術方案仍滿足不了需求。對於硬件相關公司來説,如果技術路線最終確定,那的確會帶來投資機會,但如果技術路線被拋棄,那自然會面臨預期落空的風險。

那麼當前時點,我們為什麼還要做上述硬件環節的分析呢?因為只有知道了是什麼和為什麼,才能前瞻地判斷未來可能的變化。

舉例來説,對於特斯拉最新的靈巧手方案,大量的執行器都集中在手臂,這可有效減小手部體積,從而大幅增加自由度。但與此同時,這又會增加結構複雜度,造成控制延遲,以及帶來熱積聚等一系列問題。

那麼往後看,為了解決這些問題,靈巧手和整機公司也許會做出這樣的選擇:暫時犧牲靈巧手的部分手指自由度,那麼這將不利於某些執行器零件;增加熱管理的硬件配置,那麼這將有利於供應熱管理模塊的公司,等等。

這裏結合上文分析,對於硬件的迭代方向,我們認為可以重點總結為以下幾點:

(1)成本要繼續降低,對於目前的靈巧手方案,成本仍是制約因素;

(2)要有足夠靈敏和足夠精確的感知能力,這是大模型算法能夠有效應用的前提;

(3)集成度和性能都要滿足,所以執行器技術方案還需要權衡,不只是硬件迭代,整個動力傳導結構也存在不確定性;

(4)材料還需要進一步開發,需要同時滿足柔性、準確性以及壽命要求;

(5)熱管理可能是一個增量環節;

(6)需要關注不同環節的相互影響,例如腱繩的問題是否可通過其他環節來補足,比如通過算法糾錯,或者通過增加位置傳感器的反饋來提高準確度等。

2、供應鏈還未收斂

目前投資市場和資本市場對人形機器人產業的預期顯而易見,但考慮到眾多主機廠商並未上市,於是部分硬件公司就成為了市場流動性的蓄水池。

這裏問題在於,按照特斯拉給予的預期,如果進展符合規劃,那麼 2026 年產業將進入量產階段,這將導致供應鏈收斂風險:

我們可以看到,對於人形機器人每個硬件環節,前期參與研發和驗證的硬件公司均有多家,但如果進入量產階段,整機廠商在每個環節的實際供應商可能並沒有這麼多,經驗上一般在 2-3 家,那麼在進入量產階段後,最終未進入供應鏈的硬件企業將面臨預期落空風險。

四、最後,不談具體環節和公司,我們想結合產業鏈的最新進展,對行業做一些展望

1、首先,未來靈巧手真的是人形機器人身上必不可少的的模塊嗎?

從任務泛化和環境適配的角度講,人形機器人的末端硬件,做成五指手的形狀也就是靈巧手,幾乎是必然選擇。

我們可以想象,人形機器人的遠期空間在於,它們將能夠替代人類任何形式的勞動,而這些勞動所依附的工具,本身都是基於人類的生理特性來適配的。可能有人説,給機器人裝上一個鍋鏟,它就可以直接炒菜,為什麼還要費勁給它裝一隻手,再讓這隻手拿着鍋鏟炒菜呢,這豈不是多此一舉?

完全不是,因為手是一個媒介,它的作用是連接萬千工具,它就像底層代碼,或者説像人類的語言,沒有手的存在,機器人的通用性自然無從談起。

另一方面,從數據獲取和模型訓練的效率來看,靈巧手也具備必然性。

通過上文的分析我們可以瞭解,靈巧手乃至人形機器人的最大瓶頸之一在於數據量,而怎麼獲取這個數據呢?最可靠的仍然是來自現實世界的數據。而獲取這些數據的最可靠方式,就是直接觀察和模仿人類的行為。

如果人形機器人的末端不是靈巧手,那麼這個模仿就無從談起。通過靈巧手,人形機器人的動作可以與人類動作達成最直接的映射關係,這樣的數據利用和學習的效率最高,最終動作的遷移也會更自然和準確。

2、但反過來説,從商業化的角度講,靈巧手是一個馬上可以商業化的產品嗎?

我們認為初期階段,靈巧手的應用仍將首先集中在限定性場景,如特斯拉 Optimus 可能將靈巧手首先應用在特斯拉內部工廠以進行數據收集和訓練;以及某些非成本敏感領域,如科研教育等。而要想真正實現通用性場景的應用,還需要一定的時間。

因為上文談過,靈巧手的最大瓶頸來自於數據量,而數據的最可靠準確的來源是現實世界,那麼這個數據積累過程是無法被繞過的,至少從現階段看,一定需要足夠的場景和足夠的時間。

然而,儘管在此過程中,完整的靈巧手方案仍然需要持續打磨,但某些中間形態,卻可能首先達到商業化應用的條件,或許是兩指,或許是三指,或者較少的自由度,或者某些欠驅動方案,或者相對簡化的感知硬件,以滿足某些半通用性半專用性的場景。

圖:Robotiq 的三指夾爪

來源:Robotiq,海豚研究

圖:Barrett Technology 的 BarrettHand 三指手

來源:Barrett Technology,海豚研究

關於這種“場景降維”,我們可以類比汽車自動駕駛的演進路徑——在自動駕駛的萌芽階段,部分公司選擇直接將 L4/L5 級別的自動駕駛作為實現目標,而有的公司則選擇了一條漸進式路徑,先佈局 L2/L3 級別的輔助駕駛,作為行業的入場券,以現金流反哺產品研發迭代。

另外,最近兩年,在自動駕駛還未成熟的前夜,無論是特斯拉,還是中國大陸新能源汽車企業,選擇首先推出某些場景化的輔助駕駛服務,例如高速 NOA、城市通勤 NOA、全場景 NOA 等。

在有限的場景裏,通過技術簡化和功能限制,來實現一些可商用的、有一定商業價值的產品;同步地,利用這些產品的商業化,積累數據來進一步迭代算法,以逐步逼近終極產品。那麼這也是一條可以兼顧現金流可持續性和產品迭代的可行路徑。

<全文完>

海豚研究相關內容:

《人形機器人:才是 AI 全村的希望?》

《三花:AI 機器人時代,笑到最後還是跨界 “老臘肉”?》

本文的風險披露與聲明:海豚研究免責聲明及一般披露

本文版權歸屬原作者/機構所有。

當前內容僅代表作者觀點,與本平台立場無關。內容僅供投資者參考,亦不構成任何投資建議。如對本平台提供的內容服務有任何疑問或建議,請聯絡我們。