在 OpenAI 發佈具有突破性推理能力的模型後，人工智能的推理能力競賽已然打響，阿里、幻方相繼發佈重磅新品，不僅性能比肩 o1 模型而且是開源！週四，阿里通義千問推出 QwQ-32B-Preview 開源模型，包含 325 億個參數，能夠處理最長 32000 個 tokens 的提示詞。在 AIME 和 MATH 基準測試中，表現優於 OpenAI 推理模型 o1-preview 和 o1-mini。QwQ 是少數能與 o1 匹敵的模型之一，其在數學和編程領域，尤其在需要深度推理的複雜問題上表現出色，而且它可以用於商業應用。上週，量化巨頭幻方 DeepSeek-R1-Lite 模型，Preview 版在難度較高數學和代碼任務上超越 o1-preview，大幅領先 GPT-4o 等。在 AIME 測試基準中，隨着計算時間增加，其得分穩步提升。值得一提的是，官方還表示，目前模型仍在開發階段，經持續迭代，正式版 DeepSeek-R1 模型將完全開源。阿里、幻方模型嶄露頭角，預示着業內推理 AI 正在興起，這可能為小型 AI 開發商提供趕超機會，打破目前由少數幾家科技巨頭主導的局面。於今年第二季度開始研究推理模型的初創公司 Fireworks，其聯合創始人兼首席執行官 Lin Qiao 表示：<blockquote>整個開源社區……將會以超快的速度推出推理模型。</blockquote>此外，科技巨頭們也加大了推理模型研發力度，谷歌已將其推理模型團隊規模從 o1-preview 發佈前的幾十人擴大到 200 人左右，谷歌還為該團隊提供了更多算力資源。 <h2>後進者更具成本優勢，思維鏈成大模型關鍵</h2>後進者在構建大模型方面更具成本優勢。後進者在開發 OpenAI 替代品時，似乎受益於斯坦福大學、谷歌、Meta Platforms 和 OpenAI 自身研究人員近年來發布的關於推理的論文。推理模型的開發成本低於傳統的 LLMs，如 GPT-4o，傳統模型需要花費數億美元在計算資源和訓練數據上，並需要合法獲取這些數據。新模型可以幫助 OpenAI 及其競爭對手開發能夠完成困難項目的編碼助手。例如，微軟和 Salesforce 等企業軟件公司可以利用它們來改進代表客户採取行動的代理，例如安排預約。值得一提的是，研究人員可以通過讓其他模型生成解決問題的思維過程，然後將這些過程用於訓練 LLM，從而將推理能力融入現有的 LLMs 中。一些研究人員還免費向其他開發人員開放了以推理為重點的數據集。例如，阿里巴巴表示，它使用了 Open o1 其中一個研究小組的數據來構建推理模型。人工智能初創公司 Anyscale 和 Databricks 的聯合創始人 Ion Stoica 表示：<blockquote>在開發推理模型方面，OpenAI 的競爭對手並沒有明顯的劣勢。</blockquote>

OpenAI

阿里巴巴

業內推理大模型興起，為小型 AI 開發商提供趕超機會，而且推理模型的開發成本低於傳統大模型，後進者在構建大模型時可借鑑 OpenAI 等的研究論文和數據。

- 阿里和幻方推出開源推理模型，性能與 OpenAI 的 o1 模型相當。  
- 阿里 QwQ-32B-Preview 模型在 AIME 和 MATH 測試中表現優於 o1-preview。  
- 新模型為小型 AI 開發商提供機會，打破科技巨頭主導局面。  

開源且能力比肩 o1！阿里、幻方相繼發佈重磅新品，推理大模型直逼 OpenAI