---
title: "阿里發佈 Qwen3.7-Plus：屏幕理解跑贏 GPT-5.4，11 小時獨立開發 App，“看、想、寫、做” 打通了！"
type: "News"
locale: "zh-HK"
url: "https://longbridge.com/zh-HK/news/288364015.md"
description: "“一個模型，能看、能想、能寫代碼、能行動。” 阿里官方介紹，Qwen3.7-Plus 構建的 Hybrid-Agent 系統，曾連續穩定運行 11 小時以上，自動完成一款英語單詞學習 App 的完整研發閉環，還自主復刻了一款股票行情應用。模型屏幕理解得分 79，超過 GPT-5.4 和 Gemini-3.1 Pro。"
datetime: "2026-06-02T04:33:57.000Z"
locales:
  - [zh-CN](https://longbridge.com/zh-CN/news/288364015.md)
  - [en](https://longbridge.com/en/news/288364015.md)
  - [zh-HK](https://longbridge.com/zh-HK/news/288364015.md)
---

# 阿里發佈 Qwen3.7-Plus：屏幕理解跑贏 GPT-5.4，11 小時獨立開發 App，“看、想、寫、做” 打通了！

MiniMax M3 模型昨日剛炸場，阿里千問又發佈了一個強到可怕的新 “怪物”。

6 月 2 日，阿里雲通義千問團隊在 X 平台正式宣佈發佈**Qwen3.7-Plus。**這是一個多模態 Agent 模型，官方表述是 “將視覺與語言統一為一體化智能體基座”。

團隊用一句話來概括了它的產品定位：**“一個模型，能看、能想、能寫代碼、能行動。”**

****

**用 Qwen3.7-Plus 做 App、復刻股票應用不在話下。**千問官方博客披露，基於 Qwen3.7-Plus 構建的 Hybrid-Agent 系統，曾連續穩定運行 11 小時以上，自動完成一款英語單詞學習 App 的完整研發閉環。Hybrid-Agent 系統還自主完成了 macOS 原生 Stocks 股市應用的高保真復刻。**而模型屏幕理解得分 79，也超過 GPT-5.4 和 Gemini-3.1 Pro。**

而千問這次發佈的時間點頗為微妙。就在前一天，MiniMax 剛剛推出新一代旗艦開源模型 M3，宣稱同時實現頂尖編程能力、1M 超長上下文與原生多模態。兩家在同一周內密集發佈，國內大模型開源競賽愈發白熱化。

Qwen3.7-Plus 的定價為：輸入$0.4/百萬 token，輸出$1.6/百萬 token。

## “看、想、寫、做” 打通了：一個模型看屏幕、寫代碼、操作 App

Qwen3.7-Plus 的核心看點，是把視覺理解和任務執行真正連在了一起。

官方博客描述，這個模型能"**感知真實世界場景、讀取屏幕並操作 GUI、基於視覺參考生成代碼、端到端導航移動應用**"，並在單一智能體循環中無縫融合 GUI 與 CLI 交互。

**這裏有兩個關鍵詞：GUI 和 CLI。**GUI 就是圖形界面，比如網頁按鈕、手機 App 菜單、桌面軟件窗口。CLI 就是命令行，比如工程師用來安裝依賴、運行測試、部署服務的黑色窗口。

簡單説：**它不只是"看懂圖片"，而是能看懂你的手機屏幕或電腦界面，然後自己點擊、輸入、跳轉，把任務做完。**

比如，它可以讀取屏幕，理解手機 App 或網頁界面裏哪個按鈕該點；也可以看一張設計圖，然後生成 SVG、網頁或前端原型；還可以在命令行裏跑代碼、看報錯、再改代碼。

## 連續跑 11 小時，開發一個英語單詞學習 App

關於 Qwen3.7-Plus 具體能做什麼：官方給了幾個很產品化的演示。

Qwen 官方博客稱，基於 Qwen3.7-Plus 構建的 Hybrid-Agent 系統，**連續穩定運行 11 小時以上，自動完成一款英語單詞學習 App 的研發閉環。**

細節包括：生成代碼超過 10000 行，觸發 Agent 調用超過 1000 次，覆蓋需求文檔生成、代碼自動編寫、自動化安裝部署、測試用例創建、GUI 自動化測試、多場景並行測試、產品説明自動更新和版本迭代。

這個案例的關鍵點不在於 “寫了多少代碼”，而在於鏈路夠長。一個真實軟件任務往往不是一次生成代碼就結束，還要安裝、運行、測試、改 Bug、再驗證。官方演示想強調的正是這種長流程能力。

## 復刻炒股 APP，還接入真實行情 API

另一個官方案例是，直接做一個炒股 APP。

Qwen 官方博客稱，Hybrid-Agent 系統自主完成了 macOS 原生 Stocks 股市應用的高保真復刻。流程包括：交互原生應用並理解 UI 佈局和功能細節，基於交互記錄生成 SwiftUI 源碼，接入 LongBridge 真實行情 API 獲取實時市場數據，自動編譯構建並啓動復刻應用。

**模型自主執行了 10 項功能驗證測試，內容包括實時行情加載、股票選擇與切換、多週期視圖切換、搜索過濾和詳細數據面板展示等，且全部通過。**

這個演示更直觀：模型不是隻生成一個靜態頁面，而是要理解行情 App 的結構、數據源和交互邏輯，再把它做成一個可以運行的桌面應用。

## 看圖寫代碼：圖像/視頻轉 SVG，也能生成網頁原型

Qwen 官方博客稱，Qwen3.7-Plus 可以將圖像、視頻、UI 截圖和設計參考轉化為可執行代碼，覆蓋 SVG 復現到完整網頁生成。

在圖像/視頻轉 SVG 任務中，模型需要識別幾何結構、顏色、佈局、層級關係和動態變化，再用代碼表達出來。對於圖標、插畫、動效、圖形設計和信息可視化，這類能力的產品價值在於：把 “看見的參考圖” 變成 “可編輯的代碼資產”。

在網頁設計任務中，模型不僅要復現頁面風格，還要組織布局、寫前端代碼、處理交互邏輯，並把多模態素材整合進最終頁面。

同時，Qwen3.7-Plus 可以作為視覺 Agent，把視覺理解和工具使用結合起來，解決找不同、補圖塊、華容道、走迷宮、拼拼圖等任務。

這裏的流程不是 “看一眼給答案”。模型會先理解圖像結構和約束，再把視覺問題轉成可計算的問題表示，然後自主編寫並執行代碼進行求解、搜索或驗證。

## 跑分怎麼看：屏幕理解跑贏 GPT-5.4，但不是所有項目都第一

在多模態基準測試上，Qwen3.7-Plus 有幾個數字值得關注：

**屏幕理解和移動端操控：ScreenSpot Pro 得分 79.0，高於 GPT-5.4（67.4）**和 Gemini 3.1 Pro（68.1）；AndroidWorld 得分 81.0，同樣超過 Gemini 3.1 Pro（70.7）和 Opus-4.6 Max（62.0）。

**數學視覺推理：**MathVision 得分 90.3，接近 GPT-5.4 的 91.0，超過 Gemini 3.1 Pro 的 87.4。

**搜索增強視覺問答：**SimpleVQA 得分 81.7，WorldVQA 得分 61.1，在這一賽道上與 Opus-4.6 Max 基本持平。

**圖表識別：**CharXiv(RQ) 得分 85.9，為所有參與對比模型中最高。

**純文本能力方面，官方表示 Qwen3.7-Plus"整體接近 Max 級別模型"。**

在 Terminal Bench 2.0 上得分 70.3，超過 Opus-4.6 Max（65.4）、K2.6 Thinking（66.7）和 DeepSeek-V4-Pro Max（67.9）。

在 Deep-Planning（複雜多步規劃）上得分 62.3，同樣領先同級別模型。

**不過也有弱項。**

在 SWE-Verified（真實軟件工程任務）上得分 77.7，低於 Opus-4.6 Max（80.8）和 DeepSeek-V4-Pro Max（80.6）；在 HLE（極難推理）上得分 34.7，低於 GPT-5.4（40.0）。

## 網友怎麼看？

Qwen 官方賬號 @Alibaba\_Qwen 於 6 月 2 日凌晨 1:54 發佈公告，配合 Demo 視頻展示了多模態混合 Agent 的操作過程。截至發文，該推文閲讀量已達 20 萬。

X 網友表示，Qwen3.7-Plus 模型不僅要面對各種屏幕，還要操作各類工具，並應對雜亂的工作流程。

還有網友表示，Qwen 這次的打法很清晰，就是往 Agent 和 GUI 操控上押注，這個方向現在是對的。

多個網友表示，Qwen 將 “看、想、寫、做” 集成於一個模型，實在太方便了。簡直是 “集成了一套員工系統！”

相關評論中，不少技術用户關注的重點集中在兩個方向：

一是 ScreenSpot Pro 的 79 分——這被不少人認為是"GUI Agent 能否真正商用"的關鍵門檻指標，Qwen3.7-Plus 目前是參測模型中的最高分；

二是 Kernel Bench L3 的 98%——這個指標衡量的是模型優化 GPU 計算核心的能力，98% 意味着幾乎所有問題都能產出超越 PyTorch 默認編譯器的方案。有用户指出，這個方向以前幾乎是專業工程師的"禁區"。

## 與 MiniMax M3 的橫向對比

兩款模型幾乎同期發佈，定位有所不同。

MiniMax M3 主打**開源**，技術報告和模型權重承諾在 10 天內公開，核心差異化是 1M 超長上下文（M3 在 1M 上下文下每 token 計算量只有上代的 1/20）和極強的長線程 Agent 能力（147 次 benchmark 提交、1959 次工具調用完成 FP8 矩陣乘優化）。

MiniMax 團隊讓 M3 獨立復現一篇 ICLR 2025 獲獎論文。該任務需要看懂圖文、曲線、數據和公式，也需要長上下文裝入論文、代碼和實驗日誌，還需要編程和 Agent 能力完成復現。M3 自主運行接近 12 小時，最終跑通核心實驗。

Qwen3.7-Plus 目前**僅提供 API 調用**，不開源權重，核心差異化是多模態與 GUI 操作能力的深度整合，以及對主流開發框架的即插即用兼容性。

兩者在編程 Agent 能力上存在直接競爭，但側重點不同：M3 更強調長上下文下的自主科研和代碼優化能力，Qwen3.7-Plus 更強調視覺感知與界面操作的端到端閉環。

相關鏈接：

https://x.com/Alibaba\_Qwen/status/2061506641120641494

https://qwen.ai/blog?id=qwen3.7-plus

https://chat.qwen.ai/?models=qwen3.7-plus

### 相關股票

- [09988.HK](https://longbridge.com/zh-HK/quote/09988.HK.md)
- [BABA.US](https://longbridge.com/zh-HK/quote/BABA.US.md)
- [BABX.US](https://longbridge.com/zh-HK/quote/BABX.US.md)
- [KBAB.US](https://longbridge.com/zh-HK/quote/KBAB.US.md)
- [BABO.US](https://longbridge.com/zh-HK/quote/BABO.US.md)

## 相關資訊與研究

- [阿里巴巴向員工授逾 6171 萬股獎勵市值近 76 億元，歸屬期最長 4 年](https://longbridge.com/zh-HK/news/288342106.md)
- [618 購物節｜淘寶香港推天貓超市流動體驗車 下週遊走各區](https://longbridge.com/zh-HK/news/288212478.md)
- [具身智能 GPT 何時到來？宇樹科技王興興：最快 2 至 3 年](https://longbridge.com/zh-HK/news/287582785.md)
- [宏利香港與阿里雲簽訂策略性合作協議，加速並推進 AI 創新](https://longbridge.com/zh-HK/news/288397060.md)
- [與阿里千問、字節豆包一戰？傳騰訊將推出微信 AI 智能體](https://longbridge.com/zh-HK/news/288380132.md)