---
title: "10:31 ETLeni 在四项主要 AI 基准测试中表现出色，超越了 OpenAI、Anthropic、Google 和 Perplexity 的系统"
type: "News"
locale: "zh-CN"
url: "https://longbridge.com/zh-CN/news/286119167.md"
description: "Leni 是一款用于商业房地产的人工智能分析平台，在四项人工智能基准测试中取得了优异的成绩，超越了 OpenAI 和 Google 等主要竞争对手。它在深度研究的 DRACO 基准测试中排名第一，并在其他测试中表现出色，展示了其可靠处理复杂任务的能力。Leni 的首席执行官强调了架构在人工智能应用中的重要性，指出 99% 的公司因人工智能风险面临财务损失。该平台旨在通过提供可信、准确的数据来增强资产管理的效率，以支持决策"
datetime: "2026-05-12T14:32:18.000Z"
locales:
  - [zh-CN](https://longbridge.com/zh-CN/news/286119167.md)
  - [en](https://longbridge.com/en/news/286119167.md)
  - [zh-HK](https://longbridge.com/zh-HK/news/286119167.md)
---

# 10:31 ETLeni 在四项主要 AI 基准测试中表现出色，超越了 OpenAI、Anthropic、Google 和 Perplexity 的系统

/PRNewswire/ -- Leni，一款用于商业房地产的人工智能分析平台，今天在四个独立的人工智能基准测试中取得了顶级成绩。Leni 在深度研究的 DRACO 基准测试中名列第一，在 SpreadsheetBench Verified 中排名前两名，在 BullshitBench 上超越了所有公共模型，并在 GAIA 中领先于 Genspark、Manus 和 OpenAI Deep Research。

继续阅读

Leni 在所有三个 GAIA 难度级别中均排名第一，展示了其完成复杂多步骤任务的能力，这些任务需要研究、推理和可靠的执行。

“大多数团队过于关注模型，但有效的人工智能采用所需的关键工程，能够为团队提供高度准确和可靠的结果，依赖于架构或工具，”**Leni 首席执行官兼联合创始人 Arunabh Dastidar** 表示。“这就是为什么今天最流行的编码工具是 98% 的工具和 2% 的模型。我们早在几年前就意识到了这一点，并生产了专门构建的基础设施，可以可靠地用于需要准确性和安全性的严肃工作。它将工作从监视和猜测转变为可信、可验证的输出，使团队能够更快、更有信心地推进。”

DRACO 由 Perplexity AI 和哈佛大学开发，衡量人工智能是否能够产生高级分析师会签字的深入研究。Leni 的得分为 71.6%，领先于 Perplexity、谷歌和 OpenAI 的深度研究产品。SpreadsheetBench Verified 对人工智能在数百个真实电子表格任务中的表现进行评分，Leni 在全球排名前两名，正确完成了 400 个任务中的 365 个。在 BullshitBench（版本 2）上，该测试评估人工智能是否会对无意义的问题进行反驳，而不是编造答案，Leni 识别出了 98% 的虚假前提，领先于排行榜上的 142 个公共人工智能模型。GAIA 由 Meta 和 HuggingFace 开发，衡量人工智能是否能够完成涉及多个步骤的真实世界任务，而不会在早期犯错，这可能会影响最终答案。Leni 在验证集上的得分为 77.0%，领先于 Genspark、Manus 和 OpenAI Deep Research。在商业房地产领域，错误的容忍度为零，这些基准测试衡量一个系统是否能够准确产生决定交易的分析。

这些结果很重要，因为人工智能的承诺与可靠性之间的差距正在给公司带来实际的经济损失，Dastidar 表示。根据 2025 年 10 月发布的 EY 调查，惊人的 99% 的公司报告与人工智能相关的风险导致了财务损失，平均每家公司损失 440 万美元，975 名受访者的总损失估计为 43 亿美元。在商业房地产领域，这种模式尤为明显，92% 的 CRE 公司已经试点了人工智能，但只有 5% 表示他们实现了所有人工智能目标，依据 JLL 的 2025 年全球房地产技术调查。

“如果让我描述 Leni 的影响，那就是简单：更快、更容易，”**Ram Realty Advisors 的 IT 副总裁 Scott Jones** 表示。“特别是在资产管理方面，团队不再被困在手动工作中。数据直接从源头流出，他们可以信任它。Leni 将重点从聚合信息和构建报告转移到真正重要的事情上：寻找交易，更好地执行交易，以及更有效地管理资产。”

Leni 的智能人工智能平台旨在为商业房地产的投资、资产管理和运营团队服务，从 PDF、电子表格和核心系统中提取数据，以端到端执行复杂的工作流程。该平台的核心是其通用数据模型（UDM），这是行业首个针对多家庭房地产的标准化数据框架，由包括麻省理工学院、Greystar、EY 和 Geoffrey Hinton 的向量研究所的校友在内的团队经过三年开发而成。UDM 为一个长期以来由专有格式和数据孤岛定义的行业创建了共同语言，跨越每个主要房地产系统进行集成。其结果是安全、模型无关的自动化，提供决策准备的输出，而无需内部人工智能基础设施。

“信任是任何企业实际使用的人工智能系统中最重要的部分，”**Leni 行业战略负责人 Marcio Sahade** 表示，他曾在 Tishman Speyer 和 Hines 等公司工作了 14 年。“如果团队无法依赖返回的结果，他们最终会自己重做工作，而人工智能永远无法兑现其承诺。”

他补充道：“这些基准测试测量的正是这个差距：一个系统是否可以被信任以产生完成的工作，而不仅仅是听起来合理的输出。这是我们对每个客户所设定的标准。”

**关于 Leni** Leni 是一个安全、以准确性为驱动的人工智能平台，专为商业房地产、贷款和投资领域的严肃投资工作而构建。自 2023 年公开发布以来，该公司已筹集 850 万美元，以构建该领域的最佳人工智能基础设施。Leni 为投资和资产管理团队提供准确、安全和上下文感知的交付成果。该平台目前支持超过 400 亿美元的资产管理总组合。有关更多信息，请访问：http://www.leni.co。

来源 Leni

### 相关股票

- [OpenAI.NA](https://longbridge.com/zh-CN/quote/OpenAI.NA.md)
- [AI.US](https://longbridge.com/zh-CN/quote/AI.US.md)
- [AIO.US](https://longbridge.com/zh-CN/quote/AIO.US.md)
- [XSW.US](https://longbridge.com/zh-CN/quote/XSW.US.md)
- [IDGT.US](https://longbridge.com/zh-CN/quote/IDGT.US.md)
- [CLOU.US](https://longbridge.com/zh-CN/quote/CLOU.US.md)
- [IXN.US](https://longbridge.com/zh-CN/quote/IXN.US.md)
- [SRVR.US](https://longbridge.com/zh-CN/quote/SRVR.US.md)
- [GOOGL.US](https://longbridge.com/zh-CN/quote/GOOGL.US.md)
- [GOOG.US](https://longbridge.com/zh-CN/quote/GOOG.US.md)
- [META.US](https://longbridge.com/zh-CN/quote/META.US.md)
- [JLL.US](https://longbridge.com/zh-CN/quote/JLL.US.md)

## 相关资讯与研究

- [OpenAI 开创 “算力换股权” 玩法](https://longbridge.com/zh-CN/news/287036485.md)
- [OpenAI 砸下 2.34 亿美元 在新加坡打造海外首个 AI 实验室](https://longbridge.com/zh-CN/news/287018935.md)
- [白宫向 AI 公司通报模型发布前审查计划](https://longbridge.com/zh-CN/news/287109293.md)
- [Google I/O 2026 炸场：世界模型、AI 数字水印来了，Gemini 正式进入 “Agent 时代](https://longbridge.com/zh-CN/news/286992742.md)
- [诉讼阴霾消散！马斯克告败，OpenAI 扫清最大障碍直指 “世纪 IPO”](https://longbridge.com/zh-CN/news/287018534.md)