<div id="readability-page-1"><figure><img src="https://imageproxy.pbkrs.com/https://img.huxiucdn.com/article/cover/202409/12/140158833466.jpg/query-aW1hZ2VWaWV3Mi8xL3cvMTQ0MC9oLzgxMC98aW1hZ2VNb2dyMi9zdHJpcC9pbnRlcmxhY2UvMS9xdWFsaXR5Lzg1L2Zvcm1hdC9qcGc?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1440" height="810" original-src="https://imageproxy.pbkrs.com/https://img.huxiucdn.com/article/cover/202409/12/140158833466.jpg/query-aW1hZ2VWaWV3Mi8xL3cvMTQ0MC9oLzgxMC98aW1hZ2VNb2dyMi9zdHJpcC9pbnRlcmxhY2UvMS9xdWFsaXR5Lzg1L2Zvcm1hdC9qcGc"/></figure> 橘子汽水鋪，作者：orangesai，原文標題：《Scaling Law 的困局、Self-play RL 的希望，以及 200 美金一斤的草莓》，題圖來自：AI 生成 Scaling Law 遇瓶頸，強化學習成 AI 突破點。• 🚀 強化學習在代碼、數學等領域實現單點突破• 🍓 OpenAI 即將發佈新草莓模型• 💰 ChatGPT Pro 訂閲 200 美金/月，新模型性能強大 這幾天，發生了三件事：<ul><li>聽完了小珺和廣密的 AI 行業 Q3 總結性的播客，講到了預訓練的 Scaling Law 瓶頸，以及 Self-Play RL 的重要性；</li></ul><ul><li>The Information 爆料，OpenAI 即將在 2 周內發佈新的草莓模型；</li></ul><ul><li>ChatGPT Pro 訂閲計劃開始灰度，售價 200 美金/月，上去用了一下卻發現什麼都沒有。</li></ul>這三件事關聯在一起，拼湊出了一些一些即將成為共識的信息。一、Scaling Law 的困局 整個大語言模型行業已經很久沒有大的進步了。這是所有人共同的感受。在模型達到數千億參數之後，訓練成本和難度上升了很多，但似乎上萬億也並不能帶來質變的提升。Ilya 更是直言，大家已經不知道談論 Scaling Law 的時候在 Scaling 什麼了，而他對 Scaling 有了一些新的思路。廣密説道，硅谷逐漸形成的共識就是 RL 強化學習是接下來的突破點。而預訓練方面，80% 的公司會放棄預訓練。二、Self-play RL 全村的希望 預訓練玩不起，強化學習就成了全村的希望。第一個超出預期的是 Claude Sonnet 3.5，代碼能力超越了 GPT-4o，賦能 Cursor ，讓 AI Coding 成了最熱的話題。在代碼能力方面的突破，使用的方法可能就是 RL。第二個超出預期的是 DeepSeek，起步很晚，但是專注提升模型的推理、代碼、數學能力，最近把 Coder 和 Chat 模型合併，代碼水平接近 GPT-4o，在國內是斷檔第一的存在。這兩家公司的共性就是：單點突破。如果説大語言模型的特點是通用智能的提升， RL 的特點就是單點突破。而推理、代碼、數學、Agent 就是目前價值最高的生產力領域，最適合做單點突破。三、草莓模型，兩週駕到 這部分信息昨天來自 The Information 的報道：<blockquote>OpenAI is planning to release a text-only version of &#34;Strawberry&#34; within the next two weeks， according to two testers involved with the model.據兩名測試者透露，OpenAI 計劃在未來兩週內發佈 “Strawberry” 的純文本版本。Early impressions indicate it’s somewhat underwhelming， primarily using chain-of-thought prompting. Responses take 10-20 seconds， making it slower than expected.初步印象表明，它有些不及預期，主要是使用鏈式思維提示。響應時間為 10 到 20 秒，比預期的慢。While testers found its performance slightly better than GPT-4o， Strawberry struggles with short， simple queries and has issues with memory integration.雖然測試人員發現它的能力略優於 GPT-4o，但 Strawberry 在處理簡短 Query 時表現不佳，並且在記憶方面存在問題。The model lacks image integration， making it exclusively text-based for now.該模型目前不支持圖像集成，因此只能處理文本。It is expected that Strawberry will have rate limits and might introduce a higher-priced tier for users seeking faster response times， diverging from the current pricing structure of ChatGPT.預計 Strawberry 會設定速率限制，並可能為需要更快響應時間的用户推出更高價位的套餐，這與目前的 ChatGPT 定價結構有所不同。</blockquote>四、ChatGPT Pro 上線，200 美金/月前幾天有報道 OpenAI 考慮上一個 2000 美金/月的訂閲，簡直太瘋狂了。結果今天 OpenAI 終於公佈了實際的訂閲價格是：200 美金/月……不知道是不是因為有 2000 美元的價格作鋪墊，感覺 200 美元的話，還行？這個 200 美金的訂閲買完，用了一下，發現除了可以不限量使用 4o，並沒有什麼新的東西。所以猜測唯一的可能就是即將發佈的草莓的價格。卡茲克對草莓的一句話總結：基於新範式 Self-play RL 所做的，在數學、代碼能力上強到爆炸、且具備自主為用户執行瀏覽器/系統操作級別的新模型。更智能、更慢、更貴。為什麼這麼貴？簡單説這就是更高智能的代價。從效用角度來説，草莓模型的特點是：代碼、數學、推理能力、Agent 能力超強，這幾項能力都是高價值的，但説代碼能力，如果能比現在的 Claude 3.5 再明顯好一截，200 美金一個月也是能接受的。 從成本角度來説，草莓模型每次回答，會進行大量的內部 “思考”，會長達 10~20 秒，其算力消耗成本應該在 GPT4 的 10 倍以上。從原理上來説，草莓的方法 Self-play RL 本身需要巨大的推理成本進行訓練，並且由於非實時性，這代模型的價值可能是合成數據，而非直接使用，而高質量數據的價格非常昂貴，200 美金也就夠博士生標個幾條吧。既然定價已出，就等 OpenAI 11 月的 dev day 公佈模型了，今年 AI 行業的重頭戲，會是新的里程碑還是平淡如蘋果發佈會，讓我們拭目以待！橘子汽水鋪，作者：orangesai</div>

OpenAI

Scaling Law 面臨瓶頸，強化學習被視為 AI 突破的關鍵。近期，AI 行業的 Q3 總結指出，預訓練的 Scaling Law 已不再有效，80% 的公司可能放棄此策略。相反，Self-play RL 被認為是未來的希望，尤其在代碼能力方面，Claude Sonnet 3.5 的表現超越了 GPT-4o，顯示出 RL 的潛力。同時，OpenAI 即將發佈新模型，ChatGPT Pro 訂閲計劃也已推出，售價 200 美金/月。

Scaling Law 陷入困局，強化學習才是全村的希望？