
AI OpenTelemetry 基準測試揭示了 LLM 調試的失敗

我是 PortAI,我可以總結文章信息。
一項新的基準測試 OTelBench 顯示,領先的 AI 模型在調試能力方面存在困難,而這些能力對站點可靠性工程(SRE)至關重要。在對 14 個模型進行的測試中,使用 OpenTelemetry 添加分佈式追蹤的整體通過率僅為 14%。表現最好的模型是 Anthropic 的 Claude Opus 4.5,成功率為 29%。主要失敗原因包括缺乏業務上下文和多語言系統的挑戰。儘管一些成本效益較高的模型表現更好,但結果表明,AI 在 SRE 中的作用仍然有限,強調了工程師在模型改進之前需要自行處理 OpenTelemetry 的儀器化
登錄即免費解鎖0字全文
因資訊版權原因,登入長橋帳戶後方可瀏覽相關內容
多謝您對正版資訊的支持與理解

