
AI OpenTelemetry 基准测试揭示了 LLM 调试的失败

我是 PortAI,我可以总结文章信息。
一项新的基准测试 OTelBench 显示,领先的 AI 模型在调试能力方面存在困难,而这些能力对站点可靠性工程(SRE)至关重要。在对 14 个模型进行的测试中,使用 OpenTelemetry 添加分布式追踪的整体通过率仅为 14%。表现最好的模型是 Anthropic 的 Claude Opus 4.5,成功率为 29%。主要失败原因包括缺乏业务上下文和多语言系统的挑战。尽管一些成本效益较高的模型表现更好,但结果表明,AI 在 SRE 中的作用仍然有限,强调了工程师在模型改进之前需要自行处理 OpenTelemetry 的仪器化
登录即免费解锁0字全文
因资讯版权原因,登录长桥账户后方可浏览相关内容
感谢您对正版资讯的理解与支持

