竞赛升温！最新全球大模型榜单发布，阿里新模型超越 DeepSeek V3。
当地时间 2 月 4 日，在全球知名的 AI 模型评测平台 Chatbot Arena 公布了最新一期的榜单。其中，阿里通义千问团队的最新大语言模型 Qwen2.5-Ma 取得了优异成绩，在总体排名中跻身第 7，领先于 DeepSeek V3、O1-Mini 和 Claude-3.5-Sonnet 等顶级专有大语言模型。
<img class=" wscnph" src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/c59f5666-c507-40e6-9f70-a9446a6dda8a.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="378" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/c59f5666-c507-40e6-9f70-a9446a6dda8a.png"/>
分别看打分项，Qwen2.5-Max 在技术领域表现尤为出色，在数学和编程方面排名第一，在处理复杂任务的硬提示（hard prompts）方面排名第二。
<img class=" wscnph" src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/8c09d28c-49e8-4dbe-8da3-aa17419e1da8.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="553" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/8c09d28c-49e8-4dbe-8da3-aa17419e1da8.png"/>
继 DeepSeek 之后，Qwen2.5-Max 的发布是中国 AI 阵营在高性能、低成本技术路线上的又一重要突破。市场人士此前分析称，外界此前过度聚焦 DeepSeek，却忽视了包括阿里通义在内的中国 AI 整体性追赶。如果阿里 Qwen-2.5-max 的性能确实展现出预期水平，加之其低成本优势与完整云生态，或引发 DeepSeek 之后的中国 AI 资产新一轮重估。
1 月 29 日凌晨，阿里通义千问团队悄悄上线 Qwen2.5-Max，该模型一经发布便在 MMLU-Pro、LiveCodeBench、LiveBench 和 Arena-Hard 等主要基准测试中取得领先成绩，展现出与全球顶级模型比肩的性能。
据介绍，最新的 Qwen2.5-Max 采用了超大规模的专家混合（MoE）模型架构，预训练数据量超过 20 万亿个 token，运用监督微调（SFT）和人类反馈强化学习（RLHF）技术进行优化，在知识、编程、通用能力和人类对齐等方面表现优异。

目前，全球开发者和企业可通过阿里云的生成式 AI 开发平台 Model Studio 访问 Qwen2.5-Max。
Qwen2.5-Max 发布后，迅速吸引了海内外用户和开发者的大量关注。
有网友生动地概括，Qwen2.5-Max 相当于 “中文版的 ChatGPT”，但水平要比后者 “高得多”。
<img class=" wscnph" src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/7e8e0c26-410a-496c-ba4c-3ef52b355d66.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="535" height="338" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/7e8e0c26-410a-496c-ba4c-3ef52b355d66.png"/>
有用户表示，Qwen2.5-Max“重新定义” 了视频生成功能，已经超过 OpenAI 的 Sora。
<img class=" wscnph" src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/eb1dfff4-33f3-4d43-afcd-1bd026b17e89.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="519" height="829" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/eb1dfff4-33f3-4d43-afcd-1bd026b17e89.png"/>
甚至有用户认为，Qwen2.5-Max 已经把 ChatGPT、DeepSeek 狠狠 “拍在了沙滩上”。
<img class=" wscnph" src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/801145ee-5cf3-46eb-897b-951664efb6bf.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="529" height="623" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/801145ee-5cf3-46eb-897b-951664efb6bf.png"/>
还有网友制作梗图，猜测继 DeepSeek-R1 后，这款来自中国的强大 AI 模型将进一步加剧 OpenAI 的担忧。
<img class=" wscnph" src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/0be00c00-f3b8-46da-8a4c-8b158ede1f33.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="784" height="818" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/0be00c00-f3b8-46da-8a4c-8b158ede1f33.png"/>

阿里巴巴-WR

阿里巴巴

阿里巴巴-W

在最新的全球大模型榜单中，阿里的最新大语言模型 Qwen2.5-Max 排名第 7，领先于 DeepSeek V3、O1-Mini 和 Claude-3.5-Sonnet 等顶级专有大语言模型，在数学和编程方面排名第一，在处理复杂任务的硬提示（hard prompts）方面排名第二。

- 阿里新模型 Qwen2.5-Max 在全球 AI 模型榜单中排名第 7。  
- 该模型在数学和编程方面表现优异，采用先进的 MoE 架构。  
- Qwen2.5-Max 吸引了大量用户关注，市场分析称其性能超越 DeepSeek。  

最新全球模型榜单：阿里 Qwen2.5-Max 超 DeepSeek V3