AI OpenTelemetry 基准测试揭示了 LLM 调试的失败

StartupHub
2026.01.20 16:24
portai
我是 PortAI,我可以总结文章信息。

一项新的基准测试 OTelBench 显示,领先的 AI 模型在调试能力方面存在困难,而这些能力对站点可靠性工程(SRE)至关重要。在对 14 个模型进行的测试中,使用 OpenTelemetry 添加分布式追踪的整体通过率仅为 14%。表现最好的模型是 Anthropic 的 Claude Opus 4.5,成功率为 29%。主要失败原因包括缺乏业务上下文和多语言系统的挑战。尽管一些成本效益较高的模型表现更好,但结果表明,AI 在 SRE 中的作用仍然有限,强调了工程师在模型改进之前需要自行处理 OpenTelemetry 的仪器化