--- title: "阿里發佈 Qwen3.7-Plus:屏幕理解跑贏 GPT-5.4,11 小時獨立開發 App,“看、想、寫、做” 打通了!" type: "News" locale: "zh-HK" url: "https://longbridge.com/zh-HK/news/288364015.md" description: "“一個模型,能看、能想、能寫代碼、能行動。” 阿里官方介紹,Qwen3.7-Plus 構建的 Hybrid-Agent 系統,曾連續穩定運行 11 小時以上,自動完成一款英語單詞學習 App 的完整研發閉環,還自主復刻了一款股票行情應用。模型屏幕理解得分 79,超過 GPT-5.4 和 Gemini-3.1 Pro。" datetime: "2026-06-02T04:33:57.000Z" locales: - [zh-CN](https://longbridge.com/zh-CN/news/288364015.md) - [en](https://longbridge.com/en/news/288364015.md) - [zh-HK](https://longbridge.com/zh-HK/news/288364015.md) --- # 阿里發佈 Qwen3.7-Plus:屏幕理解跑贏 GPT-5.4,11 小時獨立開發 App,“看、想、寫、做” 打通了! MiniMax M3 模型昨日剛炸場,阿里千問又發佈了一個強到可怕的新 “怪物”。 6 月 2 日,阿里雲通義千問團隊在 X 平台正式宣佈發佈**Qwen3.7-Plus。**這是一個多模態 Agent 模型,官方表述是 “將視覺與語言統一為一體化智能體基座”。 團隊用一句話來概括了它的產品定位:**“一個模型,能看、能想、能寫代碼、能行動。”** **** **用 Qwen3.7-Plus 做 App、復刻股票應用不在話下。**千問官方博客披露,基於 Qwen3.7-Plus 構建的 Hybrid-Agent 系統,曾連續穩定運行 11 小時以上,自動完成一款英語單詞學習 App 的完整研發閉環。Hybrid-Agent 系統還自主完成了 macOS 原生 Stocks 股市應用的高保真復刻。**而模型屏幕理解得分 79,也超過 GPT-5.4 和 Gemini-3.1 Pro。** 而千問這次發佈的時間點頗為微妙。就在前一天,MiniMax 剛剛推出新一代旗艦開源模型 M3,宣稱同時實現頂尖編程能力、1M 超長上下文與原生多模態。兩家在同一周內密集發佈,國內大模型開源競賽愈發白熱化。 Qwen3.7-Plus 的定價為:輸入$0.4/百萬 token,輸出$1.6/百萬 token。 ## “看、想、寫、做” 打通了:一個模型看屏幕、寫代碼、操作 App Qwen3.7-Plus 的核心看點,是把視覺理解和任務執行真正連在了一起。 官方博客描述,這個模型能"**感知真實世界場景、讀取屏幕並操作 GUI、基於視覺參考生成代碼、端到端導航移動應用**",並在單一智能體循環中無縫融合 GUI 與 CLI 交互。 **這裏有兩個關鍵詞:GUI 和 CLI。**GUI 就是圖形界面,比如網頁按鈕、手機 App 菜單、桌面軟件窗口。CLI 就是命令行,比如工程師用來安裝依賴、運行測試、部署服務的黑色窗口。 簡單説:**它不只是"看懂圖片",而是能看懂你的手機屏幕或電腦界面,然後自己點擊、輸入、跳轉,把任務做完。** 比如,它可以讀取屏幕,理解手機 App 或網頁界面裏哪個按鈕該點;也可以看一張設計圖,然後生成 SVG、網頁或前端原型;還可以在命令行裏跑代碼、看報錯、再改代碼。 ## 連續跑 11 小時,開發一個英語單詞學習 App 關於 Qwen3.7-Plus 具體能做什麼:官方給了幾個很產品化的演示。 Qwen 官方博客稱,基於 Qwen3.7-Plus 構建的 Hybrid-Agent 系統,**連續穩定運行 11 小時以上,自動完成一款英語單詞學習 App 的研發閉環。** 細節包括:生成代碼超過 10000 行,觸發 Agent 調用超過 1000 次,覆蓋需求文檔生成、代碼自動編寫、自動化安裝部署、測試用例創建、GUI 自動化測試、多場景並行測試、產品説明自動更新和版本迭代。 這個案例的關鍵點不在於 “寫了多少代碼”,而在於鏈路夠長。一個真實軟件任務往往不是一次生成代碼就結束,還要安裝、運行、測試、改 Bug、再驗證。官方演示想強調的正是這種長流程能力。 ## 復刻炒股 APP,還接入真實行情 API 另一個官方案例是,直接做一個炒股 APP。 Qwen 官方博客稱,Hybrid-Agent 系統自主完成了 macOS 原生 Stocks 股市應用的高保真復刻。流程包括:交互原生應用並理解 UI 佈局和功能細節,基於交互記錄生成 SwiftUI 源碼,接入 LongBridge 真實行情 API 獲取實時市場數據,自動編譯構建並啓動復刻應用。 **模型自主執行了 10 項功能驗證測試,內容包括實時行情加載、股票選擇與切換、多週期視圖切換、搜索過濾和詳細數據面板展示等,且全部通過。** 這個演示更直觀:模型不是隻生成一個靜態頁面,而是要理解行情 App 的結構、數據源和交互邏輯,再把它做成一個可以運行的桌面應用。 ## 看圖寫代碼:圖像/視頻轉 SVG,也能生成網頁原型 Qwen 官方博客稱,Qwen3.7-Plus 可以將圖像、視頻、UI 截圖和設計參考轉化為可執行代碼,覆蓋 SVG 復現到完整網頁生成。 在圖像/視頻轉 SVG 任務中,模型需要識別幾何結構、顏色、佈局、層級關係和動態變化,再用代碼表達出來。對於圖標、插畫、動效、圖形設計和信息可視化,這類能力的產品價值在於:把 “看見的參考圖” 變成 “可編輯的代碼資產”。 在網頁設計任務中,模型不僅要復現頁面風格,還要組織布局、寫前端代碼、處理交互邏輯,並把多模態素材整合進最終頁面。 同時,Qwen3.7-Plus 可以作為視覺 Agent,把視覺理解和工具使用結合起來,解決找不同、補圖塊、華容道、走迷宮、拼拼圖等任務。 這裏的流程不是 “看一眼給答案”。模型會先理解圖像結構和約束,再把視覺問題轉成可計算的問題表示,然後自主編寫並執行代碼進行求解、搜索或驗證。 ## 跑分怎麼看:屏幕理解跑贏 GPT-5.4,但不是所有項目都第一 在多模態基準測試上,Qwen3.7-Plus 有幾個數字值得關注: **屏幕理解和移動端操控:ScreenSpot Pro 得分 79.0,高於 GPT-5.4(67.4)**和 Gemini 3.1 Pro(68.1);AndroidWorld 得分 81.0,同樣超過 Gemini 3.1 Pro(70.7)和 Opus-4.6 Max(62.0)。 **數學視覺推理:**MathVision 得分 90.3,接近 GPT-5.4 的 91.0,超過 Gemini 3.1 Pro 的 87.4。 **搜索增強視覺問答:**SimpleVQA 得分 81.7,WorldVQA 得分 61.1,在這一賽道上與 Opus-4.6 Max 基本持平。 **圖表識別:**CharXiv(RQ) 得分 85.9,為所有參與對比模型中最高。 **純文本能力方面,官方表示 Qwen3.7-Plus"整體接近 Max 級別模型"。** 在 Terminal Bench 2.0 上得分 70.3,超過 Opus-4.6 Max(65.4)、K2.6 Thinking(66.7)和 DeepSeek-V4-Pro Max(67.9)。 在 Deep-Planning(複雜多步規劃)上得分 62.3,同樣領先同級別模型。 **不過也有弱項。** 在 SWE-Verified(真實軟件工程任務)上得分 77.7,低於 Opus-4.6 Max(80.8)和 DeepSeek-V4-Pro Max(80.6);在 HLE(極難推理)上得分 34.7,低於 GPT-5.4(40.0)。 ## 網友怎麼看? Qwen 官方賬號 @Alibaba\_Qwen 於 6 月 2 日凌晨 1:54 發佈公告,配合 Demo 視頻展示了多模態混合 Agent 的操作過程。截至發文,該推文閲讀量已達 20 萬。 X 網友表示,Qwen3.7-Plus 模型不僅要面對各種屏幕,還要操作各類工具,並應對雜亂的工作流程。 還有網友表示,Qwen 這次的打法很清晰,就是往 Agent 和 GUI 操控上押注,這個方向現在是對的。 多個網友表示,Qwen 將 “看、想、寫、做” 集成於一個模型,實在太方便了。簡直是 “集成了一套員工系統!” 相關評論中,不少技術用户關注的重點集中在兩個方向: 一是 ScreenSpot Pro 的 79 分——這被不少人認為是"GUI Agent 能否真正商用"的關鍵門檻指標,Qwen3.7-Plus 目前是參測模型中的最高分; 二是 Kernel Bench L3 的 98%——這個指標衡量的是模型優化 GPU 計算核心的能力,98% 意味着幾乎所有問題都能產出超越 PyTorch 默認編譯器的方案。有用户指出,這個方向以前幾乎是專業工程師的"禁區"。 ## 與 MiniMax M3 的橫向對比 兩款模型幾乎同期發佈,定位有所不同。 MiniMax M3 主打**開源**,技術報告和模型權重承諾在 10 天內公開,核心差異化是 1M 超長上下文(M3 在 1M 上下文下每 token 計算量只有上代的 1/20)和極強的長線程 Agent 能力(147 次 benchmark 提交、1959 次工具調用完成 FP8 矩陣乘優化)。 MiniMax 團隊讓 M3 獨立復現一篇 ICLR 2025 獲獎論文。該任務需要看懂圖文、曲線、數據和公式,也需要長上下文裝入論文、代碼和實驗日誌,還需要編程和 Agent 能力完成復現。M3 自主運行接近 12 小時,最終跑通核心實驗。 Qwen3.7-Plus 目前**僅提供 API 調用**,不開源權重,核心差異化是多模態與 GUI 操作能力的深度整合,以及對主流開發框架的即插即用兼容性。 兩者在編程 Agent 能力上存在直接競爭,但側重點不同:M3 更強調長上下文下的自主科研和代碼優化能力,Qwen3.7-Plus 更強調視覺感知與界面操作的端到端閉環。 相關鏈接: https://x.com/Alibaba\_Qwen/status/2061506641120641494 https://qwen.ai/blog?id=qwen3.7-plus https://chat.qwen.ai/?models=qwen3.7-plus ### 相關股票 - [09988.HK](https://longbridge.com/zh-HK/quote/09988.HK.md) - [BABA.US](https://longbridge.com/zh-HK/quote/BABA.US.md) - [BABX.US](https://longbridge.com/zh-HK/quote/BABX.US.md) - [KBAB.US](https://longbridge.com/zh-HK/quote/KBAB.US.md) - [BABO.US](https://longbridge.com/zh-HK/quote/BABO.US.md) ## 相關資訊與研究 - [阿里巴巴向員工授逾 6171 萬股獎勵市值近 76 億元,歸屬期最長 4 年](https://longbridge.com/zh-HK/news/288342106.md) - [618 購物節|淘寶香港推天貓超市流動體驗車 下週遊走各區](https://longbridge.com/zh-HK/news/288212478.md) - [具身智能 GPT 何時到來?宇樹科技王興興:最快 2 至 3 年](https://longbridge.com/zh-HK/news/287582785.md) - [宏利香港與阿里雲簽訂策略性合作協議,加速並推進 AI 創新](https://longbridge.com/zh-HK/news/288397060.md) - [與阿里千問、字節豆包一戰?傳騰訊將推出微信 AI 智能體](https://longbridge.com/zh-HK/news/288380132.md)