---
title: "Scaling Law 陷入困局，强化学习才是全村的希望？"
description: "Scaling Law 面临瓶颈，强化学习被视为 AI 突破的关键。近期，AI 行业的 Q3 总结指出，预训练的 Scaling Law 已不再有效，80% 的公司可能放弃此策略。相反，Self-play RL 被认为是未来的希望，尤其在代码能力方面，Claude Sonnet 3.5 的表现超越了 GPT-4o，显示出 RL 的潜力。同时，OpenAI 即将发布新模型，ChatGPT Pro 订"
type: "news"
locale: "zh-CN"
url: "https://longbridge.com/zh-CN/news/214139215.md"
published_at: "2024-09-12T06:08:40.000Z"
---

# Scaling Law 陷入困局，强化学习才是全村的希望？

> Scaling Law 面临瓶颈，强化学习被视为 AI 突破的关键。近期，AI 行业的 Q3 总结指出，预训练的 Scaling Law 已不再有效，80% 的公司可能放弃此策略。相反，Self-play RL 被认为是未来的希望，尤其在代码能力方面，Claude Sonnet 3.5 的表现超越了 GPT-4o，显示出 RL 的潜力。同时，OpenAI 即将发布新模型，ChatGPT Pro 订阅计划也已推出，售价 200 美金/月。

橘子汽水铺，作者：orangesai，原文标题：《Scaling Law 的困局、Self-play RL 的希望，以及 200 美金一斤的草莓》，题图来自：AI 生成

Scaling Law 遇瓶颈，强化学习成 AI 突破点。

• 🚀 强化学习在代码、数学等领域实现单点突破

• 🍓 OpenAI 即将发布新草莓模型

• 💰 ChatGPT Pro 订阅 200 美金/月，新模型性能强大

这几天，发生了三件事：

-   听完了小珺和广密的 AI 行业 Q3 总结性的播客，讲到了预训练的 Scaling Law 瓶颈，以及 Self-Play RL 的重要性；
    

-   The Information 爆料，OpenAI 即将在 2 周内发布新的草莓模型；
    

-   ChatGPT Pro 订阅计划开始灰度，售价 200 美金/月，上去用了一下却发现什么都没有。
    

这三件事关联在一起，拼凑出了一些一些即将成为共识的信息。

一、Scaling Law 的困局  

整个大语言模型行业已经很久没有大的进步了。

这是所有人共同的感受。

在模型达到数千亿参数之后，训练成本和难度上升了很多，但似乎上万亿也并不能带来质变的提升。

Ilya 更是直言，大家已经不知道谈论 Scaling Law 的时候在 Scaling 什么了，而他对 Scaling 有了一些新的思路。

广密说道，**硅谷逐渐形成的共识就是 RL 强化学习是接下来的突破点。**

而预训练方面，**80% 的公司会放弃预训练。**

二、Self-play RL 全村的希望  

预训练玩不起，强化学习就成了全村的希望。

第一个超出预期的是 Claude Sonnet 3.5，代码能力超越了 GPT-4o，赋能 Cursor ，让 AI Coding 成了最热的话题。在代码能力方面的突破，使用的方法可能就是 RL。

第二个超出预期的是 DeepSeek，起步很晚，但是专注提升模型的推理、代码、数学能力，最近把 Coder 和 Chat 模型合并，代码水平接近 GPT-4o，在国内是断档第一的存在。

这两家公司的共性就是：**单点突破。**

如果说大语言模型的特点是通用智能的提升， RL 的特点就是单点突破。

而推理、代码、数学、Agent 就是目前价值最高的生产力领域，最适合做单点突破。

三、草莓模型，两周驾到  

这部分信息昨天来自 The Information 的报道：

> OpenAI is planning to release a text-only version of "Strawberry" within the next two weeks， according to two testers involved with the model.
> 
> 据两名测试者透露，OpenAI 计划在未来两周内发布 “Strawberry” 的纯文本版本。
> 
> Early impressions indicate it’s somewhat underwhelming， primarily using chain-of-thought prompting. Responses take 10-20 seconds， making it slower than expected.
> 
> 初步印象表明，它有些不及预期，主要是使用链式思维提示。响应时间为 10 到 20 秒，比预期的慢。
> 
> While testers found its performance slightly better than GPT-4o， Strawberry struggles with short， simple queries and has issues with memory integration.
> 
> 虽然测试人员发现它的能力略优于 GPT-4o，但 Strawberry 在处理简短 Query 时表现不佳，并且在记忆方面存在问题。
> 
> The model lacks image integration， making it exclusively text-based for now.
> 
> 该模型目前不支持图像集成，因此只能处理文本。
> 
> It is expected that Strawberry will have rate limits and might introduce a higher-priced tier for users seeking faster response times， diverging from the current pricing structure of ChatGPT.
> 
> 预计 Strawberry 会设定速率限制，并可能为需要更快响应时间的用户推出更高价位的套餐，这与目前的 ChatGPT 定价结构有所不同。

四、ChatGPT Pro 上线，200 美金/月

前几天有报道 OpenAI 考虑上一个 2000 美金/月的订阅，简直太疯狂了。结果今天 OpenAI 终于公布了实际的订阅价格是：200 美金/月……

不知道是不是因为有 2000 美元的价格作铺垫，感觉 200 美元的话，还行？

这个 200 美金的订阅买完，用了一下，发现**除了可以不限量使用 4o，并没有什么新的东西。**

所以猜测唯一的可能就是即将发布的草莓的价格。

卡兹克对草莓的一句话总结：基于新范式 Self-play RL 所做的，在数学、代码能力上强到爆炸、且具备自主为用户执行浏览器/系统操作级别的新模型。**更智能、更慢、更贵。**

为什么这么贵？简单说这就是更高智能的代价。

从效用角度来说，草莓模型的特点是：**代码、数学、推理能力、Agent 能力超强**，这几项能力都是高价值的，但说代码能力，如果能比现在的 Claude 3.5 再明显好一截，200 美金一个月也是能接受的。  

从成本角度来说，草莓模型每次回答，会进行大量的内部 “思考”，会长达 10~20 秒，其算力消耗成本应该在 GPT4 的 10 倍以上。

从原理上来说，草莓的方法 Self-play RL 本身需要巨大的推理成本进行训练，并且由于非实时性，这代模型的价值可能是合成数据，而非直接使用，而高质量数据的价格非常昂贵，200 美金也就够博士生标个几条吧。

既然定价已出，就等 OpenAI 11 月的 dev day 公布模型了，今年 AI 行业的重头戏，会是新的里程碑还是平淡如苹果发布会，让我们拭目以待！

橘子汽水铺，作者：orangesai

### Related Stocks

- [OpenAI.NA - OpenAI](https://longbridge.com/zh-CN/quote/OpenAI.NA.md)

## Related News & Research

| Title | Description | URL |
|-------|-------------|-----|
| AI 巨頭競爭愈演愈烈 OpenAI 及 Anthropic 掌舵人印度峯會拒牽手 | 在印度新德裡舉行的人工智慧高峰會上，OpenAI 執行長 Sam Altman 與 Anthropic 執行長 Dario Amodei 拒絕牽手，展現出兩家公司之間的競爭。Altman 表示沒有牽手並非故意，而是拍攝過程中的混亂。兩家公司 | [Link](https://longbridge.com/zh-CN/news/276408352.md) |
| 阿特曼出席 AI 峯會 強調全球亟需監管措施 | 阿特曼在 AI 全球峯會上強調，全球亟需對快速發展的人工智慧技術進行監管。他指出，AI 的民主化是人類繁榮發展的關鍵，集中技術於單一公司或國家可能導致災難。他呼籲建立類似國際原子能總署的組織，以協調 AI 事務並應對新出現的問題，如失業和網 | [Link](https://longbridge.com/zh-CN/news/276395979.md) |
| OpenAI 新一輪融資或突破千億美元 據報亞馬遜、軟銀、英偉達及微軟參與投資 | OpenAI 即將完成新一輪融資，預計籌集超過 1000 億美元，估值可能超過 8500 億美元。主要投資者包括亞馬遜、軟銀、英偉達和微軟。融資將分階段進行，預計在本年度內完成。亞馬遜可能投資高達 500 億美元，軟銀 300 億美元，英偉 | [Link](https://longbridge.com/zh-CN/news/276297991.md) |
| OpenAI 高管：工程師變成 “魔法師”，AI 將開啓新一輪創業狂潮 | OpenAI 內部曝光：95% 工程師已用 AI 編程，代碼審查全由 Codex 接管！負責人 Sherwin Wu 預言，未來兩年模型將具備數小時長任務處理能力，工程師正變為指揮智能體的 “巫師”。隨着模型吞噬中間層，為 “超級個體” 服 | [Link](https://longbridge.com/zh-CN/news/275998627.md) |
| 塔塔集團將通過 OpenAI 在公司內部部署 ChatGPT Enterprise | 塔塔集團將在公司內部部署 ChatGPT Enterprise - OpenAI | [Link](https://longbridge.com/zh-CN/news/276296077.md) |

---

> **免责声明**：本文内容仅供参考，不构成任何投资建议。