
阿里 AI 四连发,横扫全球开源榜单第一名

本周阿里通义团队接连推出 Qwen3-235B 非思考版本、Qwen3-Coder 编程模型、Qwen3-235B-A22B-Thinking-2507 推理模型,以及 WebSailor AI Agent 框架,四款产品横扫基础模型、编程模型、推理模型和智能体领域的开源榜单。
阿里巴巴通义团队用四连发的重磅出击,横扫 Github 开源榜单。
本周从 7 月 22 日到 25 日,阿里接连推出 Qwen3-235B 非思考版本、Qwen3-Coder 编程模型、Qwen3-235B-A22B-Thinking-2507 推理模型,以及 WebSailor AI Agent 框架,四款产品横扫基础模型、编程模型、推理模型和智能体领域的开源榜单。
权威机构 Artificial Analysis 更是直接评价:
通义千问 3 是全球最智能的非思考基础模型。
非思考模型也能性能 “爆表”
据硬 AI,周二凌晨阿里巴巴通义千问团队推出非思考模式(Non-thinking)最新模型,命名为 Qwen3-235B-A22B-Instruct-2507-FP8。
这款非思考模型在多项关键基准测试中表现出色。不仅全面超越了 Kimi-K2 等顶级开源模型,甚至领先 Claude-Opus4-Non-thinking 等顶级闭源模型。

值得一提的是,本次更新的 Qwen3 模型在 Agent 能力尤其亮眼:在 BFCL(Agent 能力)测评中表现卓越。这意味着模型在理解复杂指令、自主规划、调用工具以完成任务的能力上,达到了一个新的高度。“主打 Agent”,将是未来 AI 应用的核心竞争力。

编程模型引发社区沸腾
7 月 23 日发布的 Qwen3-Coder 更是在全球开发者社区引发轰动。

华尔街见闻此前提及,这款基于 MoE 架构的编程模型拥有 480B 总参数,35B 激活参数,原生支持 256K 上下文,可扩展至 1M。
在开发者最关注的 SWE-bench Verified 基准测试中,Qwen3-Coder 取得了开源模型最佳表现。

模型在 7.5 万亿 token 规模上训练,其中包含 70% 代码数据,并通过长时程强化学习和 2 万个虚拟环境的大规模实战训练,在真实世界的多轮交互任务中展现出色能力。
阿里还推出了配套的命令行工具 Qwen Code,为开发者提供了完整的编程解决方案。
科技界领袖纷纷为 Qwen3-Coder 点赞,例如 Perplexity CEO Aravind Srinivas 盛赞 Qwen3-coder 的实力:
成果令人惊叹,开源正在获胜。
推特创始人 Jack Dorsey 更是强调 Qwen3 和 Goose——其 Block 公司开发的 AI Agent 框架,搭配使用的话非常棒:
goose 配合 Qwen3-Coder 等于哇哦
AI Agent 框架挑战闭源垄断
阿里通义实验室同期开源的 WebSailor AI Agent 框架,直接对标 OpenAI 的 Deep Research 产品。
这款框架在 BrowseComp-en/zh 测试中性能显著优于所有开源智能体,可媲美专属闭源模型。

WebSailor 采用复杂任务生成和强化学习模块的双重技术架构。通过构建复杂知识图谱和动态采样策略,系统能够在海量信息中进行高效检索和推理。
除了在复杂任务上的卓越表现,WebSailor 在简单任务上也表现出色。例如,在 SimpleQA 基准测试中,WebSailor 的性能超过了所有其他模型产品。
该项目在 GitHub 已获得超过 5000 颗星,并曾拿下每日增长趋势第一名。

WebSailor 的核心技术主要围绕复杂任务生成和强化学习模块展开,这两个模块相互配合,共同推动了开源智能体在复杂信息检索任务中的性能提升。
该框架的开源意义重大,打破了闭源系统在信息检索领域的垄断地位,为全球开发者提供了媲美 Deep Research 的开源解决方案。
推理模型登顶全球开源冠军
7 月 25 日发布的 Qwen3-235B-A22B-Thinking-2507 成为本周最重磅的产品。
- AIME25(数学)达到 92.3 分。
- LiveCodeBench v6(编程)获得 74.1 分。
- WritingBench(写作)达到 88.3 分。
- PolyMATH(多语言数学)获得 60.1 分。
更详细的榜单表现来看,Qwen3 推理模型相较于其他模型来看也毫不逊色(除了 R1,其他都是顶尖闭源模型)。

该模型采用 MoE 架构,总参数 235B,激活参数 22B,拥有 94 层结构和 128 个专家系统,原生支持 262,144 tokens 上下文长度。模型专为思考模式构建,默认聊天模板自动包含思考标签,为深度推理提供了强大支撑。
OpenRouter 数据显示,阿里千问的 API 调用量在过去几天暴涨,已超过 1000 亿 tokens,包揽最热门调用模型前三名。这一数据直接反映了市场对阿里开源模型的认可度。

全球网友也是被通义的最强推理模型给惊呆了。有网友直接表示:
中国的开源 o4-mini。
AI Thinkers 更是评论道:
中国刚刚发布了一款怪物级的 AI 模型。






