小米推出首個推理開源大模型 Mimo!以 7B 參數打敗 OpenAI o1-mini 和阿里 QwQ-32B-Preview

華爾街見聞
2025.04.30 05:59
portai
我是 PortAI,我可以總結文章信息。

在相同強化學習 (RL) 訓練數據條件下,MiMo-7B 在數學和代碼領域展現出的強化學習潛力明顯領先於業界廣泛使用的其他模型,包括 DeepSeek-R1-Distill-7B 和 Qwen2.5-32B 等知名強化學習起步模型。