小米推出首个推理开源大模型 Mimo!以 7B 参数打败 OpenAI o1-mini 和阿里 QwQ-32B-Preview

华尔街见闻
2025.04.30 05:59
portai
我是 PortAI,我可以总结文章信息。

在相同强化学习 (RL) 训练数据条件下,MiMo-7B 在数学和代码领域展现出的强化学习潜力明显领先于业界广泛使用的其他模型,包括 DeepSeek-R1-Distill-7B 和 Qwen2.5-32B 等知名强化学习起步模型。