---
title: "IT 组织在自托管 AI 推理方面面临棘手的成本计算问题"
type: "News"
locale: "zh-CN"
url: "https://longbridge.com/zh-CN/news/286427755.md"
description: "红帽的人工智能更新旨在促进企业向自托管人工智能的过渡，但与云服务相比，长期成本效益仍不确定。法国巴黎银行分享了其完全自托管人工智能的复杂历程，强调了基础设施挑战以及计算总拥有成本的困难。尽管数字主权推动了这一转变，红帽预测大多数公司将采用混合云方法。其他公司，如 Yapi Kredi 和诺斯罗普·格鲁曼，报告了最近迁移到 OpenShift AI 后效率的提升，但与云服务相比的成本效益仍在评估中"
datetime: "2026-05-14T13:47:21.000Z"
locales:
  - [zh-CN](https://longbridge.com/zh-CN/news/286427755.md)
  - [en](https://longbridge.com/en/news/286427755.md)
  - [zh-HK](https://longbridge.com/zh-HK/news/286427755.md)
---

# IT 组织在自托管 AI 推理方面面临棘手的成本计算问题

亚特兰大——本周，Red Hat AI 更新旨在帮助企业从代币消费者转变为代币生产者，但自托管 AI 推理是否能在长期内比云托管服务为大众带来成本优势仍然是一个悬而未决的问题。

在大型公司中，云托管 AI 服务的代币预算被迅速消耗已成为 一种普遍现象，而本周早期采用自托管 AI 的演示则描绘了一个不适合胆小者的从公共云迁移的画面。

例如，BNP Paribas 详细介绍了一个多年的项目，旨在从混合云 AI 转向完全自托管的 AI 模型和基础设施，这带来了重大的基础设施挑战。该银行每天处理约 15 亿个 AI 代币，还在三个数据中心管理裸金属服务器集群以确保冗余。其雄心勃勃的目标是将裸金属硬件资源管理为一种服务，以匹配公共云的易用性，服务于超过 150,000 名最终用户。

为了实现这一目标，它使用 OpenShift HyperShift 管理一系列集群，这是一种将管理控制平面与工作集群分开托管的嵌套方法。根据 BNP Paribas 的技术架构师 Pascal Guerineau 在本周的分组演示中所述，这带来了自身的挑战，包括确保托管控制平面 (HCP) 上的覆盖网络和 etcd 存储的适当规模。

"当我们开始时，理解 HCP 的工作原理以及如何管理它是一个相当大的挑战，" Guerineau 说。"我们真的必须考虑集群的规模，这对我们来说非常困难。"

Guerineau 说，该银行仍在努力建立一个跨这些集群动态分配的 GPU 资源池。它还考虑使用 OpenShift 虚拟化来更有效地将 GPU 分配给轻量级工作负载。

对于一家大型银行而言，数字主权 和对基础设施的控制是采用自托管 AI 的强大动机，尽管其复杂性，Guerineau 表示，总拥有成本低于继续使用云托管 AI。

但他在分组会议后的问答环节中表示，计算精确的成本节省并不简单。

"评估所有成本的一致性是困难的，"他说。"如果你在云中获得一些 GPU 机器，很容易知道它的成本。如果你有内部 GPU，你必须考虑多年来服务器的成本，支付所有数据中心和网络 \[工作人员\]……所以这很难沟通。"

在 Red Hat 峰会与 Red Hat AI 副总裁兼总经理 Joe Fernandes 的会议上，BNP Paribas 的代表。左起：Pascal Guedreau、Jean-Charles Lamy、Mathieu Keignaert。

## OpenShift AI 更新回应早期痛点

与大多数考虑自托管 AI 推理的主流企业相比，BNP Paribas 可以说是一个特例——对于普通公司，Red Hat 预测从公共云迁移将是部分的，转向混合云架构。因此，并非每个企业自托管的 AI 平台都将涉及自托管硬件和数据中心，这些都带来了自身的管理、供应链和成本挑战。

> 我们的工作是为 \[分布式推理\] 提供简单的解决方案，隐藏复杂性，这就是我们正在做的。**Brian Stevens，** Red Hat 高级副总裁兼 AI 首席技术官

BNP Paribas 在自托管 AI 方面的工作也早于许多旨在简化操作的 OpenShift AI 功能更新，尤其是本周的 模型即服务功能，Brian Stevens 在本周与 Informa TechTarget 的采访中表示。

"他们早于我们 \[最近\] 开始的分布式推理相关工作，" Stevens 说。"我们的工作是为此提供简单的解决方案，隐藏复杂性，这就是我们正在做的。"

其他峰会演讲者报告了最近迁移到 OpenShift AI 的效率收益。来自土耳其银行 Yapi Kredi 的代表详细介绍了 2025 年从基于 Cloudera 的 MLOps 系统迁移到基于 OpenShift AI 的新共享平台，用于预测和生成 AI，带来了 50% 更快的故障排除和 75% 更快的数据科学家入职。在另一个会议上，来自诺斯罗普·格鲁曼的代表表示，OpenShift Kubernetes 操作员帮助在 其首个现场 GPU 农场 中快速可靠地提供服务。

但尽管这对初始的灯塔项目有效，国防承包商仍在为其更广泛的环境开发基于 GitOps 的部署工具，包括隔离的机密基础设施，演讲者表示。

诺斯罗普·格鲁曼基础设施自动化卓越中心负责人 Joseph McConnell 在会议中表示，随着自主 AI 增加代币消耗，他预计与基于云的服务相比，成本效率的好处将变得更加明显。

然而，在会议后的问答环节中，McConnell 表示这些好处尚未具体计算。

"现在，这有点混合，" McConnell 说。"老实说，我们还没有做具体的计算，但我们从供应商那里听到的是，当你进入每个用户数百万代币的常规大量使用时，那就是会发生的情况。"

## 云的成本与复杂性

尽管过渡到自托管人工智能面临困难，但一些行业分析师对 OpenShift AI 的新自动化功能持乐观态度，认为这将有效降低主流 IT 组织迁移到自托管的门槛。

"\[Red Hat AI 3.4 是\] 朝着减少碎片化、阴影 AI 扩散和实现一致性迈出的正确一步，" IDC 的分析师 Tim Law 表示。"它消除了混合大型语言模型操作中的许多摩擦和困难。去除这些摩擦还带来了额外的硬性成本节省，以及软性成本节省。"

![Varun Raj, 云计算和人工智能工程执行官](https://imageproxy.pbkrs.com/https://cdn.ttgtmedia.com/rms/onlineimages/varun_raj.jpg?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg)

Varun Raj

但对于像生成性 AI 这样复杂的工作负载，仍然存在许多风险，这些风险可能会迅速累积，Varun Raj 表示，他是一位从事企业 AI 和云转型项目的云计算和人工智能工程执行官。

"\[Red Hat AI\] 是一个重要的抽象层，但还不是一个完全的'简单按钮'，" Raj 说。"自动化并不能消除更困难的企业问题：运行哪个模型，质量是否足够好，如何持续评估，如何确保安全，如何管理输出，以及何时自托管实际上比 API 消费更便宜。"

## 权衡开放权重价值

本周 Red Hat 自托管 AI 推理的价值主张有两个方面：它不仅呼吁更高效的内部 IT 系统自动化，还进一步推动量化、开放权重的大型语言模型和小型语言模型，这些模型在理论上更便宜且更易于在没有高端硬件的情况下运行。

这一过渡带来了自身的挑战。Yapi Kredi 的团队中有 200 名数据科学家，早在五年前就已经从 SaaS 托管转向自托管的开源模型，随后才转向 OpenShift。

Yapi Kredi 的机构分析负责人 Osmancan Uslu 在他的分组讨论会后问答环节中表示，这一过渡要困难得多。

"当我们转向 Red Hat 时，我们已经在使用开源架构，所以稍微容易一些，但在我们首次在开源中实施风险模型时，确实是一个挑战，" Uslu 说。

Yapi Kredi 的分布式推理和模型训练计划仍在开发中；它已经使用 90% 的开源和开放权重模型，但在问答环节中，代表们没有分享具体的成本节省信息。

尽管如此，有证据表明，企业在面对不断上升的成本时，仍然有动力尝试替代模型和自托管。Omdia 在十月进行的一项调查发现，近一半的 400 名受访者正在使用开源 AI 模型，Omdia 的分析师 Mark Beccue 表示，他是该调查 11 月报告的作者。

减少生成性 AI 运营成本的主要方法包括模型效率技术，包括量化，21% 的受访者提到这一点，以及在本地而不是公共云中运行 AI 计算工作负载，18% 的受访者提到这一点。开放权重模型在列表中排名较低，仅有 4% 的受访者提到。

"拥有相当规模 IT 部门的大型企业将越来越多地转向开源模型，因为他们有资源来处理这些模型，" Beccue 预测。

Omdia 在 11 月的调查报告发现，企业已经通过替代 AI 模型和自托管追求生成性 AI 成本节省。

## 开放权重模型和 AI 代理

自托管 AI 的另一个悬而未决的问题是，开放权重模型是否能够有效跟上商业模型在 AI 代理时代的步伐，考虑到代理 AI 工作负载的推理需求。

"自管理模型将非常适合狭窄、定义明确的任务，如客户服务，但可能不适用于代理工作流程，" RobustCloud 的首席顾问 Larry Carvalho 表示。"管理代理工作流程是一个新问题，供应商需要花时间来简化使用。"

Raj 预测，长期结果将在专门的开放权重模型和更大型的前沿模型之间找到平衡，因为企业向 AI 代理转型。

"小型模型的价值将来自成本效率、控制、延迟、数据本地性和可预测的任务执行——而不是在每个维度上与前沿模型相匹配，"他说。"从这个意义上说，代理的采用可能实际上会增加小型模型的价值，因为设计良好的代理需要一个模型组合，而不是一个昂贵的模型来完成所有任务。"

此外，随着前沿模型公司 将焦点转向企业，Red Hat 的 Stevens 预测，他们也将打包他们的模型，以便于自托管使用。

"我们还没有到达那一步，因为前沿模型在其他用例中赚取了丰厚的利润，" Stevens 说。"但随着企业用例的增加，他们在 AI 方面取得更多成功……他们也会想要捕捉这部分业务。"

_Beth Pariseau 是 Informa TechTarget 的高级新闻撰稿人，是 IT 新闻报道的获奖老兵。有什么线索吗？_ 给她发邮件 _或在_ LinkedIn _上联系。_

### 相关股票

- [NOC.US](https://longbridge.com/zh-CN/quote/NOC.US.md)
- [TTGT.US](https://longbridge.com/zh-CN/quote/TTGT.US.md)

## 相关资讯与研究

- [从 “俄版谷歌” 蜕变为欧洲云巨头！NebiusQ1 营收激增 684% 加码美国 AI 基建布局](https://longbridge.com/zh-CN/news/286265592.md)
- [蚂蚁百灵开源 Ring-2.6-1T：全面增强 Agent 执行能力 支持 high 与 xhigh 两种推理强度](https://longbridge.com/zh-CN/news/286526540.md)
- [西部证券：Cerebras 上市在即 晶圆级处理器实现快速推理](https://longbridge.com/zh-CN/news/286505782.md)
- [这一次，真的不一样！野村：拥抱 AI 新常态，三星、海力士估值应参考台积电](https://longbridge.com/zh-CN/news/286638916.md)
- [对话小宿科技：搜索比推理便宜 10 倍，但 90% 的人不知道](https://longbridge.com/zh-CN/news/286028362.md)