--- title: "蘋果發佈了 Depth Pro,這是一款重塑 3D 視覺規則的 AI 模型" description: "蘋果推出了 Depth Pro,這是一款人工智能模型,通過僅需 0.3 秒即可從單張圖像生成高分辨率深度圖,無需相機元數據,從而徹底改變了 3D 深度估計技術。這項技術提升了增強現實和自動駕駛等應用的性能,提供真實世界的測量數據和出色的細節。Depth Pro 具有零-shot 學習能力,可以在各種圖像上運行,無需大量訓練。該模型解決了深度估計中的挑戰,如飛行像素,並且是開源的,促進了各行業對其廣" type: "news" locale: "zh-HK" url: "https://longbridge.com/zh-HK/news/215985639.md" published_at: "2024-10-04T18:52:31.000Z" --- # 蘋果發佈了 Depth Pro,這是一款重塑 3D 視覺規則的 AI 模型 > 蘋果推出了 Depth Pro,這是一款人工智能模型,通過僅需 0.3 秒即可從單張圖像生成高分辨率深度圖,無需相機元數據,從而徹底改變了 3D 深度估計技術。這項技術提升了增強現實和自動駕駛等應用的性能,提供真實世界的測量數據和出色的細節。Depth Pro 具有零-shot 學習能力,可以在各種圖像上運行,無需大量訓練。該模型解決了深度估計中的挑戰,如飛行像素,並且是開源的,促進了各行業對其廣泛採用 蘋果的人工智能研究團隊開發了一種新模型,可以顯著提升機器感知深度的能力,潛在地改變從增強現實到自動駕駛等各行各業。 這一系統名為 Depth Pro,能夠在幾分之一秒內從單個 2D 圖像生成詳細的 3D 深度圖,而無需依賴傳統上用於進行此類預測的相機數據。 這項技術在一篇名為 “Depth Pro: Sharp Monocular Metric Depth in Less Than a Second” 的研究論文中詳細介紹,是單目深度估計領域的一大飛躍,這一過程僅使用一張圖像來推斷深度。 這可能在需要實時空間意識至關重要的各個領域具有廣泛的應用。由 Aleksei Bochkovskii 和 Vladlen Koltun 領導的模型創造者們將 Depth Pro 描述為同類系統中速度最快、最準確的系統之一。 對比了蘋果的 Depth Pro、Marigold、Depth Anything v2 和 Metric3D v2 的深度圖。Depth Pro 在捕捉毛髮和鳥籠線等細節方面表現出色,僅用 0.3 秒就能生成清晰、高分辨率的深度圖,準確性和細節方面優於其他模型。(來源:arxiv.org) 長期以來,單目深度估計一直是一項具有挑戰性的任務,需要多張圖像或像焦距這樣的元數據來準確測量深度。 但 Depth Pro 繞過了這些要求,在標準 GPU 上僅用 0.3 秒就能生成高分辨率的深度圖。該模型可以創建具有異常清晰度的 225 萬像素地圖,捕捉甚至其他方法經常忽略的頭髮和植被等細微細節。 研究人員在論文中解釋説:“這些特性得益於多項技術貢獻,包括用於密集預測的高效多尺度視覺變換器。” 這種架構使模型能夠同時處理圖像的整體背景和更細節的部分,這是一個巨大的進步,超越了之前速度較慢、不夠精確的模型。 對比了蘋果的 Depth Pro、Depth Anything v2、Marigold 和 Metric3D v2 的深度圖。Depth Pro 在捕捉鹿毛、風車葉片和斑馬條紋等細節方面表現出色,僅用 0.3 秒就能生成清晰、高分辨率的深度圖。(來源:arxiv.org) ## 度量深度,零樣本學習 真正讓 Depth Pro 脱穎而出的是其估計相對深度和絕對深度的能力,這種能力稱為 “度量深度”。 這意味着該模型可以提供真實世界的測量值,這對於增強現實(AR)等應用至關重要,其中虛擬對象需要精確放置在物理空間內。 而 Depth Pro 不需要在特定領域數據集上進行大量訓練以進行準確預測,這一特性被稱為 “零樣本學習”。這使得該模型非常靈活,可以應用於各種圖像,而無需深度估計模型通常需要的特定相機數據。 作者解釋説:“Depth Pro 在 ‘野外’ 的任意圖像上生成具有絕對尺度的度量深度圖,而無需相機內參等元數據。” 這種靈活性為各種可能性打開了大門,從增強 AR 體驗到提高自動駕駛車輛檢測和避障能力。 對於那些想親身體驗 Depth Pro 的人,可以在 Hugging Face 平台上進行實時演示。 對比了多個數據集上的深度估計模型。蘋果的 Depth Pro 在整體上排名最高,平均排名為 2.5,在各種場景中的準確性超過了 Depth Anything v2 和 Metric3D 等模型。(來源:arxiv.org) ## 實際應用:從電子商務到自動駕駛車輛 這種多功能性對各個行業都有重要影響。例如,在電子商務中,Depth Pro 可以讓消費者通過簡單地將手機攝像頭對準房間,看到傢俱在家中的擺放情況。在汽車行業,能夠從單個攝像頭生成實時、高分辨率的深度圖,可以改善自動駕駛汽車感知環境的能力,提升導航和安全性。 研究人員寫道:“該方法理想情況下應在這種零樣本情況下生成具有絕對尺度的度量深度圖,以準確重現物體形狀、場景佈局和絕對尺度。” 強調了該模型減少與訓練更傳統的 AI 模型相關的時間和成本的潛力。 ## 度量深度估計的挑戰 深度估計中最棘手的挑戰之一是處理所謂的 “飛行像素”——由於深度映射錯誤而看起來漂浮在半空中的像素。Depth Pro 直面這個問題,使其在 3D 重建和虛擬環境等應用中特別有效,其中準確性至關重要。 此外,Depth Pro 在邊界跟蹤方面表現出色,優於以前的模型,能夠清晰地勾畫出物體及其邊緣。研究人員聲稱它在邊界準確性方面超過其他系統 “乘法因子”,這對於需要精確物體分割的應用非常關鍵,如圖像摳像和醫學成像。 ## 開源並準備擴展 為了加速其採用,蘋果已經將 Depth Pro 開源。代碼以及預訓練模型權重都可以在 GitHub 上找到,允許開發人員和研究人員對這項技術進行實驗和進一步完善。存儲庫包括從模型架構到預訓練檢查點的所有內容,使其他人可以輕鬆構建在蘋果工作基礎上的工作。 研究團隊還鼓勵進一步探索 Depth Pro 在機器人、製造和醫療等領域的潛力。作者們寫道:“我們在 https://github.com/apple/ml-depth-pro 上發佈了代碼和權重”,表明這只是該模型的一個開始。 ## 人工智能深度感知的下一步發展 隨着人工智能不斷推動可能性的邊界,Depth Pro 在單目深度估計的速度和準確性方面樹立了新的標準。它能夠從單張圖像生成高質量、實時的深度圖,可能對依賴空間感知的各行業產生廣泛影響。 在人工智能日益成為決策和產品開發的核心的今天,Depth Pro 展示了前沿研究如何轉化為實用的現實解決方案。無論是改善機器感知周圍環境的方式,還是增強消費者體驗,Depth Pro 的潛在用途廣泛而多樣。 研究人員總結道:“Depth Pro 在物體邊界的清晰劃分方面遠遠優於以往所有工作,包括頭髮、毛髮和植被等細微結構。” 通過開源發佈,Depth Pro 很快可能成為從自動駕駛到增強現實等各行業不可或缺的技術,改變機器和人與 3D 環境互動的方式。 ### Related Stocks - [AAPL.US - 蘋果](https://longbridge.com/zh-HK/quote/AAPL.US.md) ## Related News & Research | Title | Description | URL | |-------|-------------|-----| | “硬件防御” 对冲 AI 焦虑,苹果与纳指相关性创 20 年新低 | AI 浪潮下,苹果因未深度卷入军备竞赛,与纳指相关性创 20 年新低,成为科技股动荡中的 “避风港”。在 AI 投资回报存疑及软件业面临颠覆的焦虑中,苹果凭借不易受冲击的硬件生态逆势突围。尽管存在估值偏高及增长放缓压力,其独特的 “AI 中 | [Link](https://longbridge.com/zh-HK/news/276301841.md) | | 苹果加速研发 AI 眼镜、挂饰及摄像头版 AirPods | 作为向人工智能驱动硬件转型的一部分,苹果公司正加速开发三款新型可穿戴设备,包括智能眼镜、一款挂饰设备以及具备扩展 AI 功能的 AirPods。这些设备将围绕 Siri 数字助理构建,并依靠具备不同功能的摄像头系统,根据视觉语境执行操作。苹 | [Link](https://longbridge.com/zh-HK/news/276167877.md) | | 沃尔玛四季度财报超预期但盈利指引不及预期,CEO 称 “美国低收入家庭只能勉强维持生计” | 沃尔玛 Q4 营收超预期,新财年盈利指引(每股 2.75-2.85 美元)远低于市场预期的 2.96 美元,显示通胀压力下消费者支出不确定性犹存,拖累股价下跌 1.38%。财报印证 K 型” 分化:高收入家庭驱动增长,低收入群体 “钱包吃紧 | [Link](https://longbridge.com/zh-HK/news/276398633.md) | | 谷歌突然发布 Gemini 3.1 Pro:核心推理性能直接翻倍 | 谷歌发布了最新的大模型 Gemini 3.1 Pro,其推理性能较去年发布的 Gemini 3 Pro 翻倍。在 ARC-AGI-2 评测中,Gemini 3.1 Pro 得分 77.1%,显示出强大的推理能力。新模型支持多源数据综合和复杂 | [Link](https://longbridge.com/zh-HK/news/276396515.md) | | 段永平试水 “AI 交易”:卖苹果加仓英伟达,“新入” CoreWeave、Credo 和 Tempus | CoreWeave 专门搭建高性能 GPU 集群,把算力租给 AI 公司和企业客户;如果说 GPU 是心脏,Credo 提供的高速互联芯片和光模块就是血管,跟 AI 服务器迭代高度绑定;Tempus 则致力于将 AI 应用于精准医疗,尤其是 | [Link](https://longbridge.com/zh-HK/news/276189117.md) | --- > **免責聲明**:本文內容僅供參考,不構成任何投資建議。