作者 | 刘宝丹编辑 | 黄昱在 AI 模型落地之战中,All In AI 的字节拿出了最新武器。4 月 17 日,火山引擎面向企业市场发布豆包 1.5・深度思考模型,它具备视觉推理能力,能像人类一样对看到的事物进行联想和思考。同时,火山引擎还升级了文生图模型 3.0 和视觉理解模型。火山引擎总裁谭待表示,豆包 1.5・深度思考模型在专业领域的推理任务中表现出色,数学推理 AIME2024 测试得分追平 Open AI o3-mini-high。它在编程竞赛、科学推理、创意写作等方面也表现出色。深度思考模型是构建 Agent 的基础,得益于模型性能的提升,字节开始把重点放在 Agent 落地上。谭待希望,AI 能够解决更复杂,更完整的问题,不再仅仅是对信息的感知、处理和生成,而是能端到端的处理任务。比如,帮用户做好行程规划并且完成买票。会上,火山引擎宣布推出 OS Agent 解决方案及 AI 云原生推理套件,帮助企业更快、更省地构建和部署 Agent 应用。华尔街见闻获悉,OS Agent 解决方案包含豆包 UI-TARS 模型,以及 veFaaS 函数服务、云服务器、云手机等产品,实现对代码、浏览器、电脑、手机以及其他 Agent 的操作。以豆包 UI-TARS 模型为例,它将屏幕视觉理解、逻辑推理、界面元素定位和操作整合在一起,突破传统自动化工具依赖预设规则的局限性,为 Agent 的智能交互提供了更接近人类操作的模型基础。要做好 Agent,除了模型能力和好的架构和工具之外,成本也是 Agent 落地的重要因素。为此,火山引擎专门打造了 AI 云原生 Serving Kit 推理套件,让模型部署更快、推理成本更低。华尔街见闻从火山引擎内部获悉,GPU 消耗相比传统方案降低 80%。随着 Agent 加快落地,对火山引擎来说,会带来更大量的模型推理消耗。据火山引擎披露,截至 2025 年 3 月底,豆包大模型日均 tokens 调用量已达到 12.7 万亿,较去年 5 月发布时增长上百倍。根据 IDC 发布的《中国公有云大模型服务市场格局分析,1Q25》显示,火山引擎以 46.4% 的市场份额位居第一。不过,Agent 仍处于探索阶段,火山引擎要想更好推动 Agent 落地,还要在市场中接受更多考验。以下为华尔街见闻与谭待的交流实录(经编辑):问:DeepSeek R2 正在紧锣密鼓地筹划,面对这个开源的强力竞争对手,豆包整个闭源的策略和后续的商业化是怎么样的?谭待:我主要说一下火山引擎,开源和闭源不是关键,模型的优劣才是关键。昨天 Open AI 发布了 o4mini 和 o3,竞争是好事。若把当前的 AI 发展看作一场马拉松,可能现在才跑了 500 米,大家在竞争中相互推动,无论是技术还是行业应用都能快速发展。商业模式方面,火山引擎作为云厂商,一是做好基础设施 AI 云原生;二是提供最好的模型以及模型上的各种应用,DeepSeek 推出后,所有云厂商中对其适配最好的就是火山引擎。问:未来 2 年,火山引擎的大模型 token 调用还会保持近百倍的增长吗?谭待:从长期来看,百倍甚至更高的增长是有可能的,但具体是 2 年还是 3 年,最关键的取决于模型是否有重大突破。去年到今年增长很快,是因为模型有几个重大突破:一是,最基础的聊天和信息处理能力提升且成本下降;二是,今年深度思考功能的推出也是一个突破。往后发展还有很多关键节点,比如,Agent 相关技术能否取得更大进展。每一次大模型突破肯定能激发一次大的变化,但 2 年内能否再翻 100 倍,要谨慎乐观。问:针对豆包模型的全面升级,您给豆包的表现打多少分?这次升级更强调了文本推理更强、成本更低、更容易落地,这三个优势哪个实现起来是最难的?谭待:我就不打分了,因为模型进展太快,今天打 100 分,可能 1 个月以后只有 60 分,静态打分意义不大。相比于主观打分,更有价值的是客观数据,比如有多少人使用豆包 APP,有多少大企业在调用豆包模型。整体来说,实现效果好最难,因为要先用各种方法达到最好的效果,然后在这个基础上再用各种方式去降低成本,这是一个优化的过程。问:火山未来会支持 MCP 协议,或者类似的协议,您怎么看待通过统一协议来争夺开发生态话语权这样一个竞争?谭待:火山引擎已经支持了 MCP 协议。我觉得,协议统一很重要,以前不同厂商如 Google 或者其他相关产品,都有不同的插件协议,这使得开发者去适配的成本比较高。如果能做到统一协议,大家的应用开发就会更快,模型调用也会更智能。我们希望一起拥抱和建设一个开放的协议,就像早期互联网的 HTTP 和 HTML 协议一样,这样才能加速整个行业的发展。问:那您考虑推出类似 A2A 这种新协议吗?谭待:我觉得,首先还是要把 MCP 这个最基础的事情做好,A2A 可以看作是 MCP 的一个扩展。问:火山引擎做 OS Agent 方案的原因是什么?谭待:火山引擎围绕模型提供 OS Agent 方案,目标是做好相关基础建设。很多时候,实现相关功能需要多模态的支持,如果要下单,调用 API,就需要 MCP 的支持。对于一些长尾需求,可能还需要直接操纵电脑、浏览器、手机等,这就是我们做 OS Agent 方案的原因。问:关于 AI 智能眼镜,想请您透露一下进展。谭待:我也不是特别清楚。对火山引擎来说,不管是内部需求还是外部需求,都采用统一的方案来解决。从外部视角看,随着模型能力的提升,以前很多做不了的事情现在都可以实现,比如 AI 眼镜、AI 玩具、智能摄像头、门锁等。问:目前,字节对于 Agent 市场发展的看法是什么?谭待:不能简单说是 “押注”。随着 AI 发展,聊天和信息处理只是其中一小部分,要真正为各行各业带来变革,Agent 是必经之路。如果做不好 Agent 相关工作,就难以实现 AI 的社会和经济价值。Agent 大概有两种类型,一种是垂直类 Agent,另一种是通用型 Agent。对于垂直类 Agent,火山引擎会基于自身优势领域进行探索,比如之前推出的数据 Agent。对于通用型 Agent,更重要的是搭建好基础框架、提供好用的工具,所以我们推出了 OS Agent 解决方案,借助新的 AI 云原生组件、SandBox 和新模型,让开发者和企业能更轻松地打造自己的通用 Agent,这是火山未来的重要发展方向。问:火山在对内支持和对外扩张上是怎样的比重?接下来在团队扩招上有没有计划?谭待:从成立之初,我们就坚持技术内外统一,这样既能保障对内服务,也能做好对外支持。通过技术和资源复用,我们能为内外客户提供性价比更高的服务,像我们的 MaaS 和云服务,性价比优势就源于此。关于业务扩张,与规模相关的业务,如服务更多客户,需要扩充销售团队等,人员会相应增加;产品研发更注重质量,我们也在思考如何借助 AI 提升自身产品研发和维护的效率。问:接下来一两年有保持领先优势的规划吗?您如何定义 Agent?谭待:我们致力于成为 AI 时代最优秀的云厂商,始终秉持三个理念:持续优化模型,保持竞争力;不断降低成本,包括费用、延迟和提高吞吐率;让产品更易于落地。未来我们会在这三方面持续发力。目前,很多智算中心主要用于模型训练,但模型只有在应用阶段才能产生经济价值。从今年到未来,模型应用的消耗将远超训练本身。关于 Agent 定义,Agent 应能完成专业度较高、耗时较长的完整任务,这是从定性角度来看。从技术实现角度,如果没有运用思考模型,缺乏反思和规划能力,也很难被认定为 Agent。今年大家对 Agent 的定义会更加清晰,或许会像自动驾驶分级(AgentL1、L2、L3、L4)一样,对 Agent 进行分级,那些所谓的三四千个 Agent 可能只是 L1 级别,而真正落地可能需要达到 L2++ 及以上级别。问:2025 年是 AI Agent 元年,字节这样的大厂和 Manus 这样的初创企业,谁机会更大?谭待:机会大小取决于企业的创新能力,而非企业规模,不能以公司大小来判断,持续保持创新能力才是关键。问:大模型都存在幻觉问题,如果用于数据分析,如何减少或避免幻觉出现?谭待:每个领域对大模型出现幻觉的接受程度都不同,关键在于如何降低幻觉出现的概率。首先,模型本身的能力越强,出现幻觉的可能性越低;其次,可以引入知识库来辅助模型,让它在生成内容时有更可靠的参考依据;再者,增加类似验证这样的阶段,持续提升模型在这方面的能力。