--- title: "阿里发布 Qwen3.7-Plus:屏幕理解跑赢 GPT-5.4,11 小时独立开发 App,“看、想、写、做” 打通了!" type: "News" locale: "zh-CN" url: "https://longbridge.com/zh-CN/news/288364015.md" description: "“一个模型,能看、能想、能写代码、能行动。” 阿里官方介绍,Qwen3.7-Plus 构建的 Hybrid-Agent 系统,曾连续稳定运行 11 小时以上,自动完成一款英语单词学习 App 的完整研发闭环,还自主复刻了一款股票行情应用。模型屏幕理解得分 79,超过 GPT-5.4 和 Gemini-3.1 Pro。" datetime: "2026-06-02T04:33:57.000Z" locales: - [zh-CN](https://longbridge.com/zh-CN/news/288364015.md) - [en](https://longbridge.com/en/news/288364015.md) - [zh-HK](https://longbridge.com/zh-HK/news/288364015.md) --- # 阿里发布 Qwen3.7-Plus:屏幕理解跑赢 GPT-5.4,11 小时独立开发 App,“看、想、写、做” 打通了! MiniMax M3 模型昨日刚炸场,阿里千问又发布了一个强到可怕的新 “怪物”。 6 月 2 日,阿里云通义千问团队在 X 平台正式宣布发布**Qwen3.7-Plus。**这是一个多模态 Agent 模型,官方表述是 “将视觉与语言统一为一体化智能体基座”。 团队用一句话来概括了它的产品定位:**“一个模型,能看、能想、能写代码、能行动。”** **** **用 Qwen3.7-Plus 做 App、复刻股票应用不在话下。**千问官方博客披露,基于 Qwen3.7-Plus 构建的 Hybrid-Agent 系统,曾连续稳定运行 11 小时以上,自动完成一款英语单词学习 App 的完整研发闭环。Hybrid-Agent 系统还自主完成了 macOS 原生 Stocks 股市应用的高保真复刻。**而模型屏幕理解得分 79,也超过 GPT-5.4 和 Gemini-3.1 Pro。** 而千问这次发布的时间点颇为微妙。就在前一天,MiniMax 刚刚推出新一代旗舰开源模型 M3,宣称同时实现顶尖编程能力、1M 超长上下文与原生多模态。两家在同一周内密集发布,国内大模型开源竞赛愈发白热化。 Qwen3.7-Plus 的定价为:输入$0.4/百万 token,输出$1.6/百万 token。 ## “看、想、写、做” 打通了:一个模型看屏幕、写代码、操作 App Qwen3.7-Plus 的核心看点,是把视觉理解和任务执行真正连在了一起。 官方博客描述,这个模型能"**感知真实世界场景、读取屏幕并操作 GUI、基于视觉参考生成代码、端到端导航移动应用**",并在单一智能体循环中无缝融合 GUI 与 CLI 交互。 **这里有两个关键词:GUI 和 CLI。**GUI 就是图形界面,比如网页按钮、手机 App 菜单、桌面软件窗口。CLI 就是命令行,比如工程师用来安装依赖、运行测试、部署服务的黑色窗口。 简单说:**它不只是"看懂图片",而是能看懂你的手机屏幕或电脑界面,然后自己点击、输入、跳转,把任务做完。** 比如,它可以读取屏幕,理解手机 App 或网页界面里哪个按钮该点;也可以看一张设计图,然后生成 SVG、网页或前端原型;还可以在命令行里跑代码、看报错、再改代码。 ## 连续跑 11 小时,开发一个英语单词学习 App 关于 Qwen3.7-Plus 具体能做什么:官方给了几个很产品化的演示。 Qwen 官方博客称,基于 Qwen3.7-Plus 构建的 Hybrid-Agent 系统,**连续稳定运行 11 小时以上,自动完成一款英语单词学习 App 的研发闭环。** 细节包括:生成代码超过 10000 行,触发 Agent 调用超过 1000 次,覆盖需求文档生成、代码自动编写、自动化安装部署、测试用例创建、GUI 自动化测试、多场景并行测试、产品说明自动更新和版本迭代。 这个案例的关键点不在于 “写了多少代码”,而在于链路够长。一个真实软件任务往往不是一次生成代码就结束,还要安装、运行、测试、改 Bug、再验证。官方演示想强调的正是这种长流程能力。 ## 复刻炒股 APP,还接入真实行情 API 另一个官方案例是,直接做一个炒股 APP。 Qwen 官方博客称,Hybrid-Agent 系统自主完成了 macOS 原生 Stocks 股市应用的高保真复刻。流程包括:交互原生应用并理解 UI 布局和功能细节,基于交互记录生成 SwiftUI 源码,接入 LongBridge 真实行情 API 获取实时市场数据,自动编译构建并启动复刻应用。 **模型自主执行了 10 项功能验证测试,内容包括实时行情加载、股票选择与切换、多周期视图切换、搜索过滤和详细数据面板展示等,且全部通过。** 这个演示更直观:模型不是只生成一个静态页面,而是要理解行情 App 的结构、数据源和交互逻辑,再把它做成一个可以运行的桌面应用。 ## 看图写代码:图像/视频转 SVG,也能生成网页原型 Qwen 官方博客称,Qwen3.7-Plus 可以将图像、视频、UI 截图和设计参考转化为可执行代码,覆盖 SVG 复现到完整网页生成。 在图像/视频转 SVG 任务中,模型需要识别几何结构、颜色、布局、层级关系和动态变化,再用代码表达出来。对于图标、插画、动效、图形设计和信息可视化,这类能力的产品价值在于:把 “看见的参考图” 变成 “可编辑的代码资产”。 在网页设计任务中,模型不仅要复现页面风格,还要组织布局、写前端代码、处理交互逻辑,并把多模态素材整合进最终页面。 同时,Qwen3.7-Plus 可以作为视觉 Agent,把视觉理解和工具使用结合起来,解决找不同、补图块、华容道、走迷宫、拼拼图等任务。 这里的流程不是 “看一眼给答案”。模型会先理解图像结构和约束,再把视觉问题转成可计算的问题表示,然后自主编写并执行代码进行求解、搜索或验证。 ## 跑分怎么看:屏幕理解跑赢 GPT-5.4,但不是所有项目都第一 在多模态基准测试上,Qwen3.7-Plus 有几个数字值得关注: **屏幕理解和移动端操控:ScreenSpot Pro 得分 79.0,高于 GPT-5.4(67.4)**和 Gemini 3.1 Pro(68.1);AndroidWorld 得分 81.0,同样超过 Gemini 3.1 Pro(70.7)和 Opus-4.6 Max(62.0)。 **数学视觉推理:**MathVision 得分 90.3,接近 GPT-5.4 的 91.0,超过 Gemini 3.1 Pro 的 87.4。 **搜索增强视觉问答:**SimpleVQA 得分 81.7,WorldVQA 得分 61.1,在这一赛道上与 Opus-4.6 Max 基本持平。 **图表识别:**CharXiv(RQ) 得分 85.9,为所有参与对比模型中最高。 **纯文本能力方面,官方表示 Qwen3.7-Plus"整体接近 Max 级别模型"。** 在 Terminal Bench 2.0 上得分 70.3,超过 Opus-4.6 Max(65.4)、K2.6 Thinking(66.7)和 DeepSeek-V4-Pro Max(67.9)。 在 Deep-Planning(复杂多步规划)上得分 62.3,同样领先同级别模型。 **不过也有弱项。** 在 SWE-Verified(真实软件工程任务)上得分 77.7,低于 Opus-4.6 Max(80.8)和 DeepSeek-V4-Pro Max(80.6);在 HLE(极难推理)上得分 34.7,低于 GPT-5.4(40.0)。 ## 网友怎么看? Qwen 官方账号 @Alibaba\_Qwen 于 6 月 2 日凌晨 1:54 发布公告,配合 Demo 视频展示了多模态混合 Agent 的操作过程。截至发文,该推文阅读量已达 20 万。 X 网友表示,Qwen3.7-Plus 模型不仅要面对各种屏幕,还要操作各类工具,并应对杂乱的工作流程。 还有网友表示,Qwen 这次的打法很清晰,就是往 Agent 和 GUI 操控上押注,这个方向现在是对的。 多个网友表示,Qwen 将 “看、想、写、做” 集成于一个模型,实在太方便了。简直是 “集成了一套员工系统!” 相关评论中,不少技术用户关注的重点集中在两个方向: 一是 ScreenSpot Pro 的 79 分——这被不少人认为是"GUI Agent 能否真正商用"的关键门槛指标,Qwen3.7-Plus 目前是参测模型中的最高分; 二是 Kernel Bench L3 的 98%——这个指标衡量的是模型优化 GPU 计算核心的能力,98% 意味着几乎所有问题都能产出超越 PyTorch 默认编译器的方案。有用户指出,这个方向以前几乎是专业工程师的"禁区"。 ## 与 MiniMax M3 的横向对比 两款模型几乎同期发布,定位有所不同。 MiniMax M3 主打**开源**,技术报告和模型权重承诺在 10 天内公开,核心差异化是 1M 超长上下文(M3 在 1M 上下文下每 token 计算量只有上代的 1/20)和极强的长线程 Agent 能力(147 次 benchmark 提交、1959 次工具调用完成 FP8 矩阵乘优化)。 MiniMax 团队让 M3 独立复现一篇 ICLR 2025 获奖论文。该任务需要看懂图文、曲线、数据和公式,也需要长上下文装入论文、代码和实验日志,还需要编程和 Agent 能力完成复现。M3 自主运行接近 12 小时,最终跑通核心实验。 Qwen3.7-Plus 目前**仅提供 API 调用**,不开源权重,核心差异化是多模态与 GUI 操作能力的深度整合,以及对主流开发框架的即插即用兼容性。 两者在编程 Agent 能力上存在直接竞争,但侧重点不同:M3 更强调长上下文下的自主科研和代码优化能力,Qwen3.7-Plus 更强调视觉感知与界面操作的端到端闭环。 相关链接: https://x.com/Alibaba\_Qwen/status/2061506641120641494 https://qwen.ai/blog?id=qwen3.7-plus https://chat.qwen.ai/?models=qwen3.7-plus ### 相关股票 - [09988.HK](https://longbridge.com/zh-CN/quote/09988.HK.md) - [BABA.US](https://longbridge.com/zh-CN/quote/BABA.US.md) - [BABX.US](https://longbridge.com/zh-CN/quote/BABX.US.md) - [KBAB.US](https://longbridge.com/zh-CN/quote/KBAB.US.md) - [BABO.US](https://longbridge.com/zh-CN/quote/BABO.US.md) ## 相关资讯与研究 - [阿里巴巴-W 授出 6171.67 万股相关股份的奖励](https://longbridge.com/zh-CN/news/288254643.md) - [阿里拉升涨超 6%,发布 Qwen3.7-Plus 多模态智能模型升级版](https://longbridge.com/zh-CN/news/288370249.md) - [从石斧到 GPT:技术创新的 “能量代价” 从未改变](https://longbridge.com/zh-CN/news/287728902.md) - [GPT-Image-2 实测:AI 生图越过临界点了](https://longbridge.com/zh-CN/news/288208648.md) - [Opus4.8:一个不太诚实的模型](https://longbridge.com/zh-CN/news/287997038.md)