--- title: "苹果发布了 Depth Pro,这是一款重塑 3D 视觉规则的 AI 模型" description: "苹果推出了 Depth Pro,这是一款人工智能模型,通过仅需 0.3 秒即可从单张图像生成高分辨率深度图,无需相机元数据,从而彻底改变了 3D 深度估计技术。这项技术提升了增强现实和自动驾驶等应用的性能,提供真实世界的测量数据和出色的细节。Depth Pro 具有零-shot 学习能力,可以在各种图像上运行,无需大量训练。该模型解决了深度估计中的挑战,如飞行像素,并且是开源的,促进了各行业对其广" type: "news" locale: "zh-CN" url: "https://longbridge.com/zh-CN/news/215985639.md" published_at: "2024-10-04T18:52:31.000Z" --- # 苹果发布了 Depth Pro,这是一款重塑 3D 视觉规则的 AI 模型 > 苹果推出了 Depth Pro,这是一款人工智能模型,通过仅需 0.3 秒即可从单张图像生成高分辨率深度图,无需相机元数据,从而彻底改变了 3D 深度估计技术。这项技术提升了增强现实和自动驾驶等应用的性能,提供真实世界的测量数据和出色的细节。Depth Pro 具有零-shot 学习能力,可以在各种图像上运行,无需大量训练。该模型解决了深度估计中的挑战,如飞行像素,并且是开源的,促进了各行业对其广泛采用 苹果的人工智能研究团队开发了一种新模型,可以显著提升机器感知深度的能力,潜在地改变从增强现实到自动驾驶等各行各业。 这一系统名为 Depth Pro,能够在几分之一秒内从单个 2D 图像生成详细的 3D 深度图,而无需依赖传统上用于进行此类预测的相机数据。 这项技术在一篇名为 “Depth Pro: Sharp Monocular Metric Depth in Less Than a Second” 的研究论文中详细介绍,是单目深度估计领域的一大飞跃,这一过程仅使用一张图像来推断深度。 这可能在需要实时空间意识至关重要的各个领域具有广泛的应用。由 Aleksei Bochkovskii 和 Vladlen Koltun 领导的模型创造者们将 Depth Pro 描述为同类系统中速度最快、最准确的系统之一。 对比了苹果的 Depth Pro、Marigold、Depth Anything v2 和 Metric3D v2 的深度图。Depth Pro 在捕捉毛发和鸟笼线等细节方面表现出色,仅用 0.3 秒就能生成清晰、高分辨率的深度图,准确性和细节方面优于其他模型。(来源:arxiv.org) 长期以来,单目深度估计一直是一项具有挑战性的任务,需要多张图像或像焦距这样的元数据来准确测量深度。 但 Depth Pro 绕过了这些要求,在标准 GPU 上仅用 0.3 秒就能生成高分辨率的深度图。该模型可以创建具有异常清晰度的 225 万像素地图,捕捉甚至其他方法经常忽略的头发和植被等细微细节。 研究人员在论文中解释说:“这些特性得益于多项技术贡献,包括用于密集预测的高效多尺度视觉变换器。” 这种架构使模型能够同时处理图像的整体背景和更细节的部分,这是一个巨大的进步,超越了之前速度较慢、不够精确的模型。 对比了苹果的 Depth Pro、Depth Anything v2、Marigold 和 Metric3D v2 的深度图。Depth Pro 在捕捉鹿毛、风车叶片和斑马条纹等细节方面表现出色,仅用 0.3 秒就能生成清晰、高分辨率的深度图。(来源:arxiv.org) ## 度量深度,零样本学习 真正让 Depth Pro 脱颖而出的是其估计相对深度和绝对深度的能力,这种能力称为 “度量深度”。 这意味着该模型可以提供真实世界的测量值,这对于增强现实(AR)等应用至关重要,其中虚拟对象需要精确放置在物理空间内。 而 Depth Pro 不需要在特定领域数据集上进行大量训练以进行准确预测,这一特性被称为 “零样本学习”。这使得该模型非常灵活,可以应用于各种图像,而无需深度估计模型通常需要的特定相机数据。 作者解释说:“Depth Pro 在 ‘野外’ 的任意图像上生成具有绝对尺度的度量深度图,而无需相机内参等元数据。” 这种灵活性为各种可能性打开了大门,从增强 AR 体验到提高自动驾驶车辆检测和避障能力。 对于那些想亲身体验 Depth Pro 的人,可以在 Hugging Face 平台上进行实时演示。 对比了多个数据集上的深度估计模型。苹果的 Depth Pro 在整体上排名最高,平均排名为 2.5,在各种场景中的准确性超过了 Depth Anything v2 和 Metric3D 等模型。(来源:arxiv.org) ## 实际应用:从电子商务到自动驾驶车辆 这种多功能性对各个行业都有重要影响。例如,在电子商务中,Depth Pro 可以让消费者通过简单地将手机摄像头对准房间,看到家具在家中的摆放情况。在汽车行业,能够从单个摄像头生成实时、高分辨率的深度图,可以改善自动驾驶汽车感知环境的能力,提升导航和安全性。 研究人员写道:“该方法理想情况下应在这种零样本情况下生成具有绝对尺度的度量深度图,以准确重现物体形状、场景布局和绝对尺度。” 强调了该模型减少与训练更传统的 AI 模型相关的时间和成本的潜力。 ## 度量深度估计的挑战 深度估计中最棘手的挑战之一是处理所谓的 “飞行像素”——由于深度映射错误而看起来漂浮在半空中的像素。Depth Pro 直面这个问题,使其在 3D 重建和虚拟环境等应用中特别有效,其中准确性至关重要。 此外,Depth Pro 在边界跟踪方面表现出色,优于以前的模型,能够清晰地勾画出物体及其边缘。研究人员声称它在边界准确性方面超过其他系统 “乘法因子”,这对于需要精确物体分割的应用非常关键,如图像抠像和医学成像。 ## 开源并准备扩展 为了加速其采用,苹果已经将 Depth Pro 开源。代码以及预训练模型权重都可以在 GitHub 上找到,允许开发人员和研究人员对这项技术进行实验和进一步完善。存储库包括从模型架构到预训练检查点的所有内容,使其他人可以轻松构建在苹果工作基础上的工作。 研究团队还鼓励进一步探索 Depth Pro 在机器人、制造和医疗等领域的潜力。作者们写道:“我们在 https://github.com/apple/ml-depth-pro 上发布了代码和权重”,表明这只是该模型的一个开始。 ## 人工智能深度感知的下一步发展 随着人工智能不断推动可能性的边界,Depth Pro 在单目深度估计的速度和准确性方面树立了新的标准。它能够从单张图像生成高质量、实时的深度图,可能对依赖空间感知的各行业产生广泛影响。 在人工智能日益成为决策和产品开发的核心的今天,Depth Pro 展示了前沿研究如何转化为实用的现实解决方案。无论是改善机器感知周围环境的方式,还是增强消费者体验,Depth Pro 的潜在用途广泛而多样。 研究人员总结道:“Depth Pro 在物体边界的清晰划分方面远远优于以往所有工作,包括头发、毛发和植被等细微结构。” 通过开源发布,Depth Pro 很快可能成为从自动驾驶到增强现实等各行业不可或缺的技术,改变机器和人与 3D 环境互动的方式。 ### Related Stocks - [AAPL.US - 苹果](https://longbridge.com/zh-CN/quote/AAPL.US.md) ## Related News & Research | Title | Description | URL | |-------|-------------|-----| | 股神巴菲特再現「神準」操作 亞馬遜急跌前大減倉 再沽蘋果美銀 買入一隻媒體股 | 股神巴菲特在卸任巴郡 CEO 後,繼續調整投資組合。根據 SEC 13F 文件,巴郡大幅減持亞馬遜 770 萬股,持倉減少 77%;同時出售約 5,080 萬股美國銀行和 1,030 萬股蘋果,連續第三季減持蘋果。巴郡首次增持傳統媒體股,購 | [Link](https://longbridge.com/zh-CN/news/276191227.md) | | 索羅斯逆市加碼微軟及 Nvidia 等科企 新買入黃金股 清倉 4 隻股份 | 索羅斯基金管理公司在 2022 年第四季度加大對微軟、英偉達和蘋果等大型科技股的投資,同時增持黃金股以對衝風險。基金還增持了 Atlassian、Salesforce 和 Uber 等軟體公司股票,但大幅減持了 Snowflake 和 Ci | [Link](https://longbridge.com/zh-CN/news/275990619.md) | | “硬件防禦” 對沖 AI 焦慮,蘋果與納指相關性創 20 年新低 | AI 浪潮下,蘋果因未深度捲入軍備競賽,與納指相關性創 20 年新低,成為科技股動盪中的 “避風港”。在 AI 投資回報存疑及軟件業面臨顛覆的焦慮中,蘋果憑藉不易受衝擊的硬件生態逆勢突圍。儘管存在估值偏高及增長放緩壓力,其獨特的 “AI 中 | [Link](https://longbridge.com/zh-CN/news/276301841.md) | | IronBridge Private Wealth LLC 持有蘋果公司價值 905,000 美元的股份 | IronBridge Private Wealth LLC 在第三季度將其在蘋果公司(NASDAQ:AAPL)的持股減少了 77.3%,目前持有 3,555 股,價值 905,000 美元。其他機構投資者,包括先鋒集團和道富銀行,已增加了在 | [Link](https://longbridge.com/zh-CN/news/276436345.md) | | 蘋果加速研發 AI 眼鏡、掛飾及攝像頭版 AirPods | 作為向人工智能驅動硬件轉型的一部分,蘋果公司正加速開發三款新型可穿戴設備,包括智能眼鏡、一款掛飾設備以及具備擴展 AI 功能的 AirPods。這些設備將圍繞 Siri 數字助理構建,並依靠具備不同功能的攝像頭系統,根據視覺語境執行操作。蘋 | [Link](https://longbridge.com/zh-CN/news/276167877.md) | --- > **免责声明**:本文内容仅供参考,不构成任何投资建议。