最新全球模型榜单:阿里 Qwen2.5-Max 超 DeepSeek V3

华尔街见闻
2025.02.05 02:51
portai
我是 PortAI,我可以总结文章信息。

在最新的全球大模型榜单中,阿里的最新大语言模型 Qwen2.5-Max 排名第 7,领先于 DeepSeek V3、O1-Mini 和 Claude-3.5-Sonnet 等顶级专有大语言模型,在数学和编程方面排名第一,在处理复杂任务的硬提示(hard prompts)方面排名第二。

竞赛升温!最新全球大模型榜单发布,阿里新模型超越 DeepSeek V3。

当地时间 2 月 4 日,在全球知名的 AI 模型评测平台 Chatbot Arena 公布了最新一期的榜单。其中,阿里通义千问团队的最新大语言模型 Qwen2.5-Ma 取得了优异成绩,在总体排名中跻身第 7,领先于 DeepSeek V3、O1-Mini 和 Claude-3.5-Sonnet 等顶级专有大语言模型。

分别看打分项,Qwen2.5-Max 在技术领域表现尤为出色,在数学和编程方面排名第一,在处理复杂任务的硬提示(hard prompts)方面排名第二。

继 DeepSeek 之后,Qwen2.5-Max 的发布是中国 AI 阵营在高性能、低成本技术路线上的又一重要突破。市场人士此前分析称,外界此前过度聚焦 DeepSeek,却忽视了包括阿里通义在内的中国 AI 整体性追赶。如果阿里 Qwen-2.5-max 的性能确实展现出预期水平,加之其低成本优势与完整云生态,或引发 DeepSeek 之后的中国 AI 资产新一轮重估。

1 月 29 日凌晨,阿里通义千问团队悄悄上线 Qwen2.5-Max,该模型一经发布便在 MMLU-Pro、LiveCodeBench、LiveBench 和 Arena-Hard 等主要基准测试中取得领先成绩,展现出与全球顶级模型比肩的性能。

据介绍,最新的 Qwen2.5-Max 采用了超大规模的专家混合(MoE)模型架构,预训练数据量超过 20 万亿个 token,运用监督微调(SFT)和人类反馈强化学习(RLHF)技术进行优化,在知识、编程、通用能力和人类对齐等方面表现优异。

目前,全球开发者和企业可通过阿里云的生成式 AI 开发平台 Model Studio 访问 Qwen2.5-Max。

Qwen2.5-Max 发布后,迅速吸引了海内外用户和开发者的大量关注。

有网友生动地概括,Qwen2.5-Max 相当于 “中文版的 ChatGPT”,但水平要比后者 “高得多”。

有用户表示,Qwen2.5-Max“重新定义” 了视频生成功能,已经超过 OpenAI 的 Sora。

甚至有用户认为,Qwen2.5-Max 已经把 ChatGPT、DeepSeek 狠狠 “拍在了沙滩上”。

还有网友制作梗图,猜测继 DeepSeek-R1 后,这款来自中国的强大 AI 模型将进一步加剧 OpenAI 的担忧。