--- title: "Scaling Law 陷入困局,強化學習才是全村的希望?" description: "Scaling Law 面臨瓶頸,強化學習被視為 AI 突破的關鍵。近期,AI 行業的 Q3 總結指出,預訓練的 Scaling Law 已不再有效,80% 的公司可能放棄此策略。相反,Self-play RL 被認為是未來的希望,尤其在代碼能力方面,Claude Sonnet 3.5 的表現超越了 GPT-4o,顯示出 RL 的潛力。同時,OpenAI 即將發佈新模型,ChatGPT Pro 訂" type: "news" locale: "zh-HK" url: "https://longbridge.com/zh-HK/news/214139215.md" published_at: "2024-09-12T06:08:40.000Z" --- # Scaling Law 陷入困局,強化學習才是全村的希望? > Scaling Law 面臨瓶頸,強化學習被視為 AI 突破的關鍵。近期,AI 行業的 Q3 總結指出,預訓練的 Scaling Law 已不再有效,80% 的公司可能放棄此策略。相反,Self-play RL 被認為是未來的希望,尤其在代碼能力方面,Claude Sonnet 3.5 的表現超越了 GPT-4o,顯示出 RL 的潛力。同時,OpenAI 即將發佈新模型,ChatGPT Pro 訂閲計劃也已推出,售價 200 美金/月。 橘子汽水鋪,作者:orangesai,原文標題:《Scaling Law 的困局、Self-play RL 的希望,以及 200 美金一斤的草莓》,題圖來自:AI 生成 Scaling Law 遇瓶頸,強化學習成 AI 突破點。 • 🚀 強化學習在代碼、數學等領域實現單點突破 • 🍓 OpenAI 即將發佈新草莓模型 • 💰 ChatGPT Pro 訂閲 200 美金/月,新模型性能強大 這幾天,發生了三件事: - 聽完了小珺和廣密的 AI 行業 Q3 總結性的播客,講到了預訓練的 Scaling Law 瓶頸,以及 Self-Play RL 的重要性; - The Information 爆料,OpenAI 即將在 2 周內發佈新的草莓模型; - ChatGPT Pro 訂閲計劃開始灰度,售價 200 美金/月,上去用了一下卻發現什麼都沒有。 這三件事關聯在一起,拼湊出了一些一些即將成為共識的信息。 一、Scaling Law 的困局 整個大語言模型行業已經很久沒有大的進步了。 這是所有人共同的感受。 在模型達到數千億參數之後,訓練成本和難度上升了很多,但似乎上萬億也並不能帶來質變的提升。 Ilya 更是直言,大家已經不知道談論 Scaling Law 的時候在 Scaling 什麼了,而他對 Scaling 有了一些新的思路。 廣密説道,**硅谷逐漸形成的共識就是 RL 強化學習是接下來的突破點。** 而預訓練方面,**80% 的公司會放棄預訓練。** 二、Self-play RL 全村的希望 預訓練玩不起,強化學習就成了全村的希望。 第一個超出預期的是 Claude Sonnet 3.5,代碼能力超越了 GPT-4o,賦能 Cursor ,讓 AI Coding 成了最熱的話題。在代碼能力方面的突破,使用的方法可能就是 RL。 第二個超出預期的是 DeepSeek,起步很晚,但是專注提升模型的推理、代碼、數學能力,最近把 Coder 和 Chat 模型合併,代碼水平接近 GPT-4o,在國內是斷檔第一的存在。 這兩家公司的共性就是:**單點突破。** 如果説大語言模型的特點是通用智能的提升, RL 的特點就是單點突破。 而推理、代碼、數學、Agent 就是目前價值最高的生產力領域,最適合做單點突破。 三、草莓模型,兩週駕到 這部分信息昨天來自 The Information 的報道: > OpenAI is planning to release a text-only version of "Strawberry" within the next two weeks, according to two testers involved with the model. > > 據兩名測試者透露,OpenAI 計劃在未來兩週內發佈 “Strawberry” 的純文本版本。 > > Early impressions indicate it’s somewhat underwhelming, primarily using chain-of-thought prompting. Responses take 10-20 seconds, making it slower than expected. > > 初步印象表明,它有些不及預期,主要是使用鏈式思維提示。響應時間為 10 到 20 秒,比預期的慢。 > > While testers found its performance slightly better than GPT-4o, Strawberry struggles with short, simple queries and has issues with memory integration. > > 雖然測試人員發現它的能力略優於 GPT-4o,但 Strawberry 在處理簡短 Query 時表現不佳,並且在記憶方面存在問題。 > > The model lacks image integration, making it exclusively text-based for now. > > 該模型目前不支持圖像集成,因此只能處理文本。 > > It is expected that Strawberry will have rate limits and might introduce a higher-priced tier for users seeking faster response times, diverging from the current pricing structure of ChatGPT. > > 預計 Strawberry 會設定速率限制,並可能為需要更快響應時間的用户推出更高價位的套餐,這與目前的 ChatGPT 定價結構有所不同。 四、ChatGPT Pro 上線,200 美金/月 前幾天有報道 OpenAI 考慮上一個 2000 美金/月的訂閲,簡直太瘋狂了。結果今天 OpenAI 終於公佈了實際的訂閲價格是:200 美金/月…… 不知道是不是因為有 2000 美元的價格作鋪墊,感覺 200 美元的話,還行? 這個 200 美金的訂閲買完,用了一下,發現**除了可以不限量使用 4o,並沒有什麼新的東西。** 所以猜測唯一的可能就是即將發佈的草莓的價格。 卡茲克對草莓的一句話總結:基於新範式 Self-play RL 所做的,在數學、代碼能力上強到爆炸、且具備自主為用户執行瀏覽器/系統操作級別的新模型。**更智能、更慢、更貴。** 為什麼這麼貴?簡單説這就是更高智能的代價。 從效用角度來説,草莓模型的特點是:**代碼、數學、推理能力、Agent 能力超強**,這幾項能力都是高價值的,但説代碼能力,如果能比現在的 Claude 3.5 再明顯好一截,200 美金一個月也是能接受的。 從成本角度來説,草莓模型每次回答,會進行大量的內部 “思考”,會長達 10~20 秒,其算力消耗成本應該在 GPT4 的 10 倍以上。 從原理上來説,草莓的方法 Self-play RL 本身需要巨大的推理成本進行訓練,並且由於非實時性,這代模型的價值可能是合成數據,而非直接使用,而高質量數據的價格非常昂貴,200 美金也就夠博士生標個幾條吧。 既然定價已出,就等 OpenAI 11 月的 dev day 公佈模型了,今年 AI 行業的重頭戲,會是新的里程碑還是平淡如蘋果發佈會,讓我們拭目以待! 橘子汽水鋪,作者:orangesai ### Related Stocks - [OpenAI.NA - OpenAI](https://longbridge.com/zh-HK/quote/OpenAI.NA.md) ## Related News & Research | Title | Description | URL | |-------|-------------|-----| | Sam Altman 和 Dario Amodei 在印度 AI 峰会上因拍照姿势引发争议——OpenAI 首席执行官表示 ‘我只是不太确定……’ | 在印度人工智能影响峰会上,OpenAI CEO Sam Altman 和 Anthropic CEO Dario Amodei 在与包括印度总理纳伦德拉·莫迪在内的领导人合影时选择不进行传统的手牵手姿势,引发了争议。Altman 表示对这一 | [Link](https://longbridge.com/zh-HK/news/276431749.md) | | 继 AMD 之后,OpenAI 与塔塔合作在印度建设一个 1GW 的大型 AI 数据中心 | OpenAI 与塔塔集团及塔塔咨询服务公司合作,在印度开发一个大规模的人工智能数据中心,潜在容量为 1 吉瓦。该公告由塔塔集团董事长纳塔拉詹·钱德拉塞卡兰在 2026 年人工智能影响峰会上发布,OpenAI 首席执行官山姆·阿尔特曼出席了会 | [Link](https://longbridge.com/zh-HK/news/276304570.md) | | OpenAI 扩大代理商务的推动 | 通过将结构化产品数据和结账流程直接嵌入 ChatGPT,OpenAI 希望将人工智能定位为商业的前沿门户 | [Link](https://longbridge.com/zh-HK/news/276071558.md) | | OpenAI 的 Altman 在接受 CNBC 采访时表示,中国科技公司的进步 ‘显著’ | OpenAI 的山姆·阿尔特曼在新德里的人工智能峰会上赞扬了中国科技公司在人工智能领域的快速进展。他指出,尽管某些领域表现出显著的进步,但其他领域仍然落后。阿尔特曼的言论突显了中国与美国在开发通用人工智能(AGI)方面的竞争 | [Link](https://longbridge.com/zh-HK/news/276315901.md) | | 奥特曼与阿莫迪在印度的大型人工智能峰会上经历了一个尴尬的时刻 | 在印度人工智能影响峰会上,OpenAI 的 Sam Altman 和 Anthropic 的 Dario Amodei 在莫迪总理的提示下没有握手,造成了一瞬间的尴尬,突显了他们之间的激烈竞争。最近这种竞争愈演愈烈,尤其是在 OpenAI | [Link](https://longbridge.com/zh-HK/news/276340986.md) | --- > **免責聲明**:本文內容僅供參考,不構成任何投資建議。