
阿里史上最大规模开源发布,超 GPT-4o 、Llama-3.1!

阿里巴巴宣布推出史上最大规模的开源发布,推出基础模型 Qwen2.5 及其衍生模型 Qwen2.5-Coder 和 Qwen2.5-Math,共有 10 多个版本,适用于不同用户和场景。Qwen2.5 在多个基准测试中表现优异,击败了 Meta 的 Llama-3.1,成为最强大的开源模型之一。阿里还提供了 Qwen-Plus 和 Qwen-Turbo 的 API,方便开发者快速集成生成式 AI 功能。
今天凌晨,阿里巴巴官宣了史上最大规模的开源发布,推出了基础模型 Qwen2.5、专用于编码 Qwen2.5-Coder 和数学的 Qwen2.5-Math。
这三大类模型一共有 10 多个版本,包括 0.5B、1.5B、3B、7B、14B、32B 和 72B,适用于个人、企业以及移动端、PC 等不同人群不同业务场景的模型。
如果不想进行繁琐的部署,阿里还开放了旗舰模型 Qwen-Plus 和 Qwen-Turbo 的 API,帮助你快速开发或集成生成式 AI 功能。

开源地址:https://huggingface.co/collections/Qwen/qwen25-66e81a666513e518adb90d9e
Github:https://github.com/QwenLM/Qwen2.5?tab=readme-ov-file
在线 demo:https://huggingface.co/spaces/Qwen/Qwen2.5
API 地址:https://help.aliyun.com/zh/model-studio/developer-reference/what-is-qwen-llm
下面「AIGC 开放社区」详细为大家介绍这些模型的性能特点以及测试结果。
Qwen2.5 系列性能测试
本次阿里开源的最大版本指令微调模型 Qwen2.5-72B 在 MMLU-Pro
MMLU-redux、GPQA、MATH、GSM8K、HumanEval、MBPP 等全球知名基准测试平台的测试结果显示。
虽然 Qwen2.5 只有 720 亿参数,但在多个基准测试中击败了 Meta 拥有 4050 亿参数的最新开源 Llama-3.1 指令微调模型;全面超过了 Mistral 最新开源的 Large-V2 指令微调模型,成为目前最强大参数的开源模型之一。

即便是没有进行指令微调的基础模型,其性能同样超过 Llama-3-405B。

阿里开放 API 的旗舰模型 Qwen-Plus,其性能可以媲美闭源模型 GPT4-o 和 Claude-3.5-Sonnet。

此外,Qwen2.5 系列首次引入了 140 亿和 320 亿两种新参数模型,Qwen2.5-14B 和 Qwen2.5-32B。
指令微调模型的性能则超过了谷歌的 Gemma2-27B、微软的 Phi-3.5-MoE-Instruct,与闭源模型 GPT-4o mini 相比,只有三项测试略低其他基准测试全部超过。

自阿里发布 CodeQwen1.5 以来,吸引了大量用户通过该模型完成各种编程任务,包括调试、回答编程相关的问题以及提供代码建议。
本次发布的 Qwen2.5-Coder-7B 指令微调版本,在众多测试基准中,击败了那些知名且有较大参数的模型。

前不久阿里首次发布了数学模型 Qwen2-Math,本次发布的 Qwen2.5-Math 在更大规模的高质量数学数据上进行了预训练,包括由 Qwen2-Math 生成的合成数据。同时增加了对中文的支持,并通过 CoT、PoT 和 TIR 的能力来加强其推理能力。
其中,Qwen2.5-Math-72B 的整体性能超越了 Qwen2-Math-72B 指令微调和著名闭源模型 GPT4-o。

其实从上面这些测试数据不难看出,即便是参数很小的模型,在质量数据和架构的帮助下,同样可以击败高参数模型,这在能耗和环境部署方面拥有相当大的优势。而阿里本次发布的 Qwen2.5 系列将小参数模型的性能发挥到了极致。
Qwen2.5 系列简单介绍
Qwen2.5 系列支持中文、英文、法文、西班牙文、葡萄牙文、德文、意大利文、俄文、日文等超过 29 种主流语言。与 Qwen2 类似,Qwen2.5 语言模型支持高达 128K tokens,并能生成最多 8K tokens 的内容。
与 Qwen-2 相比,Qwen2.5 系列的预训练数据大幅度增长达到了惊人的 18 万亿 tokens,超过了 Meta 最新开源 Llama-3.1 的 15 万亿,成为目前训练数据最多的开源模型。
知识能力显著增强,Qwen2.5 在 MMLU 基准测试中,与 Qwen2-7/72B 相比从 70.3 提高到 74.2,从 84.2 提高到 86.1 。Qwen2.5 在 GPQA/MMLU-Pro/MMLU-redux/ARC-c 基准测试上也有显着改进。

Qwen2.5 能够生成更符合人类偏好的响应,与 Qwen2-72B-Instruct 相比,Qwen2.5-72B-Instruct 的 Arena-Hard 分数从 48.1 显着提高到 81.2 ,MT-Bench 分数从 9.12 提高到 9.35 。
数学能力获得增强,在融合了 Qwen2-math 的技术后,Qwen2.5 的数学能力也得到了快速提升。在 MATH 基准上,Qwen2.5-7B/72B-Instruct 的得分从 Qwen2-7B/72B-Instruct 的 52.9/69.0 提高到 75.5/83.1。
此外,Qwen2.5 在指令跟踪、生成长文本(从 1k 增加到超过 8K 标记)、理解结构化数据(例如表格)以及生成结构化输出(尤其是 JSON)方面实现了显着改进。同时对系统提示的多样性更具弹性,增强了聊天机器人的角色扮演实施和条件设置。
AIGC 开放社区,原文标题:《阿里史上最大规模开源发布,超 GPT-4o 、Llama-3.1!》

