---
title: "10:31 ETLeni 在四項主要 AI 基準測試中表現出色，超越了 OpenAI、Anthropic、Google 和 Perplexity 的系統"
type: "News"
locale: "zh-HK"
url: "https://longbridge.com/zh-HK/news/286119167.md"
description: "Leni 是一款用於商業房地產的人工智能分析平台，在四項人工智能基準測試中取得了優異的成績，超越了 OpenAI 和 Google 等主要競爭對手。它在深度研究的 DRACO 基準測試中排名第一，並在其他測試中表現出色，展示了其可靠處理複雜任務的能力。Leni 的首席執行官強調了架構在人工智能應用中的重要性，指出 99% 的公司因人工智能風險面臨財務損失。該平台旨在通過提供可信、準確的數據來增強資產管理的效率，以支持決策"
datetime: "2026-05-12T14:32:18.000Z"
locales:
  - [zh-CN](https://longbridge.com/zh-CN/news/286119167.md)
  - [en](https://longbridge.com/en/news/286119167.md)
  - [zh-HK](https://longbridge.com/zh-HK/news/286119167.md)
---

# 10:31 ETLeni 在四項主要 AI 基準測試中表現出色，超越了 OpenAI、Anthropic、Google 和 Perplexity 的系統

/PRNewswire/ -- Leni，一款用於商業房地產的人工智能分析平台，今天在四個獨立的人工智能基準測試中取得了頂級成績。Leni 在深度研究的 DRACO 基準測試中名列第一，在 SpreadsheetBench Verified 中排名前兩名，在 BullshitBench 上超越了所有公共模型，並在 GAIA 中領先於 Genspark、Manus 和 OpenAI Deep Research。

繼續閲讀

Leni 在所有三個 GAIA 難度級別中均排名第一，展示了其完成複雜多步驟任務的能力，這些任務需要研究、推理和可靠的執行。

“大多數團隊過於關注模型，但有效的人工智能採用所需的關鍵工程，能夠為團隊提供高度準確和可靠的結果，依賴於架構或工具，”**Leni 首席執行官兼聯合創始人 Arunabh Dastidar** 表示。“這就是為什麼今天最流行的編碼工具是 98% 的工具和 2% 的模型。我們早在幾年前就意識到了這一點，並生產了專門構建的基礎設施，可以可靠地用於需要準確性和安全性的嚴肅工作。它將工作從監視和猜測轉變為可信、可驗證的輸出，使團隊能夠更快、更有信心地推進。”

DRACO 由 Perplexity AI 和哈佛大學開發，衡量人工智能是否能夠產生高級分析師會簽字的深入研究。Leni 的得分為 71.6%，領先於 Perplexity、谷歌和 OpenAI 的深度研究產品。SpreadsheetBench Verified 對人工智能在數百個真實電子表格任務中的表現進行評分，Leni 在全球排名前兩名，正確完成了 400 個任務中的 365 個。在 BullshitBench（版本 2）上，該測試評估人工智能是否會對無意義的問題進行反駁，而不是編造答案，Leni 識別出了 98% 的虛假前提，領先於排行榜上的 142 個公共人工智能模型。GAIA 由 Meta 和 HuggingFace 開發，衡量人工智能是否能夠完成涉及多個步驟的真實世界任務，而不會在早期犯錯，這可能會影響最終答案。Leni 在驗證集上的得分為 77.0%，領先於 Genspark、Manus 和 OpenAI Deep Research。在商業房地產領域，錯誤的容忍度為零，這些基準測試衡量一個系統是否能夠準確產生決定交易的分析。

這些結果很重要，因為人工智能的承諾與可靠性之間的差距正在給公司帶來實際的經濟損失，Dastidar 表示。根據 2025 年 10 月發佈的 EY 調查，驚人的 99% 的公司報告與人工智能相關的風險導致了財務損失，平均每家公司損失 440 萬美元，975 名受訪者的總損失估計為 43 億美元。在商業房地產領域，這種模式尤為明顯，92% 的 CRE 公司已經試點了人工智能，但只有 5% 表示他們實現了所有人工智能目標，依據 JLL 的 2025 年全球房地產技術調查。

“如果讓我描述 Leni 的影響，那就是簡單：更快、更容易，”**Ram Realty Advisors 的 IT 副總裁 Scott Jones** 表示。“特別是在資產管理方面，團隊不再被困在手動工作中。數據直接從源頭流出，他們可以信任它。Leni 將重點從聚合信息和構建報告轉移到真正重要的事情上：尋找交易，更好地執行交易，以及更有效地管理資產。”

Leni 的智能人工智能平台旨在為商業房地產的投資、資產管理和運營團隊服務，從 PDF、電子表格和核心繫統中提取數據，以端到端執行復雜的工作流程。該平台的核心是其通用數據模型（UDM），這是行業首個針對多家庭房地產的標準化數據框架，由包括麻省理工學院、Greystar、EY 和 Geoffrey Hinton 的向量研究所的校友在內的團隊經過三年開發而成。UDM 為一個長期以來由專有格式和數據孤島定義的行業創建了共同語言，跨越每個主要房地產系統進行集成。其結果是安全、模型無關的自動化，提供決策準備的輸出，而無需內部人工智能基礎設施。

“信任是任何企業實際使用的人工智能系統中最重要的部分，”**Leni 行業戰略負責人 Marcio Sahade** 表示，他曾在 Tishman Speyer 和 Hines 等公司工作了 14 年。“如果團隊無法依賴返回的結果，他們最終會自己重做工作，而人工智能永遠無法兑現其承諾。”

他補充道：“這些基準測試測量的正是這個差距：一個系統是否可以被信任以產生完成的工作，而不僅僅是聽起來合理的輸出。這是我們對每個客户所設定的標準。”

**關於 Leni** Leni 是一個安全、以準確性為驅動的人工智能平台，專為商業房地產、貸款和投資領域的嚴肅投資工作而構建。自 2023 年公開發布以來，該公司已籌集 850 萬美元，以構建該領域的最佳人工智能基礎設施。Leni 為投資和資產管理團隊提供準確、安全和上下文感知的交付成果。該平台目前支持超過 400 億美元的資產管理總組合。有關更多信息，請訪問：http://www.leni.co。

來源 Leni

### 相關股票

- [OpenAI.NA](https://longbridge.com/zh-HK/quote/OpenAI.NA.md)
- [AI.US](https://longbridge.com/zh-HK/quote/AI.US.md)
- [AIO.US](https://longbridge.com/zh-HK/quote/AIO.US.md)
- [XSW.US](https://longbridge.com/zh-HK/quote/XSW.US.md)
- [IDGT.US](https://longbridge.com/zh-HK/quote/IDGT.US.md)
- [CLOU.US](https://longbridge.com/zh-HK/quote/CLOU.US.md)
- [IXN.US](https://longbridge.com/zh-HK/quote/IXN.US.md)
- [SRVR.US](https://longbridge.com/zh-HK/quote/SRVR.US.md)
- [GOOGL.US](https://longbridge.com/zh-HK/quote/GOOGL.US.md)
- [GOOG.US](https://longbridge.com/zh-HK/quote/GOOG.US.md)
- [META.US](https://longbridge.com/zh-HK/quote/META.US.md)
- [JLL.US](https://longbridge.com/zh-HK/quote/JLL.US.md)

## 相關資訊與研究

- [長期續約戰開打！OpenAI 推全新「保證算力容量」服務](https://longbridge.com/zh-HK/news/286976956.md)
- [Google AI 送福利？ 付費計劃即日起包埋 YouTube Premium](https://longbridge.com/zh-HK/news/287095590.md)
- [AI 需求爆衝，Google 執行長：每月處理 3,200 兆 token，年成長七倍](https://longbridge.com/zh-HK/news/286971582.md)
- [AI 第一網紅 Karpathy 加盟 Anthropic 圖啥？](https://longbridge.com/zh-HK/news/287071248.md)
- [I/O 大會一文速覽 新模型不是重點 谷歌要讓 AI 進入一切](https://longbridge.com/zh-HK/news/286990338.md)