<div id="readability-page-1">夜里十一点，大洋彼岸早上 8 点整。 Claude 带着大货闪亮登场了。 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/74b4c72e-7b27-4820-900f-9b6fddc0a142.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="597" height="981" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/74b4c72e-7b27-4820-900f-9b6fddc0a142.png"/> 升级版的 Claude 3.5 Sonnet，新模型 Claude 3.5 Haiku，还有全新的新功能：computer use，翻译过来后，我把他称为，“计算机操控”。 一个一个来说。 首先新模型升级版 Claude 3.5 Sonnet。 Claude 的模型一直分为三个尺寸，分别是 Opus、Sonnet、Haiku。从大到小。 3 月的时候，Claude 正式推出 Claude 3 代的全系模型，从 Opus 到 Haiku 都有。 然后 6 月的时候推出了 Claude 3.5 Sonnet，只推了这一个，没有 3.5 Opus 和 Haiku，参见这篇文章：我体验完刚发布的 Claude3.5，发现最强的是这个新功能。 那时候 Claude 3.5 Sonnet 的能力就吊打了旧的最大参数的模型。 而今天，推送的是升级版的 Claude 3.5 Sonnet，还有新的 Claude 3.5 Haiku。 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/e04e3f62-fbce-406e-a708-83587c63c499.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="869" height="122" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/e04e3f62-fbce-406e-a708-83587c63c499.png"/> 有趣的是，Claude 3.5 Haiku 还是后训的，知识截止时间是 7 月，而升级版 Claude 3.5 Sonnet 知识时间并没有变，也就是加了更多的强化学习的合成数据以及 “计算机控制” 的训练。 而 Claude 3.5 Sonnet 的整体性能上，基本傲视群雄。 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/3ccbd39e-b951-40eb-b9b0-d7febead1b48.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="760" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/3ccbd39e-b951-40eb-b9b0-d7febead1b48.png"/> 不管是推理、还是本科的知识、还是编程能力啥的，都是 No.1，而且 Claude 的跑分不像很多模型那种刷榜，他的跑分是真的可信的。 我相信 6 月 Claude 3.5 Sonnet 上线后，直接一波科技跃迁，带着 cursor 之类的 A 编程一波升天，就不会有任何人会怀疑 Claude 的代码能力了吧。 最特别的评测基准其实是那个第七行的 SWE-bench Verified，大概就是测试写代码解决问题的真实能力，这个评测基准是 8 月份 OpenAI 提的，然后这波 Claude 3.5 直接把这个基准加在自己的跑分里。 GPT4o 在这项的跑分是 33.2%，o1 不知道。 但是按 Claude 的话说，o1 是个什么脏东西，不认识。 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/ac6b1220-ddab-47b6-88f0-f40d3a98084a.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="598" height="144" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/ac6b1220-ddab-47b6-88f0-f40d3a98084a.png"/> 而新版的 Claude 3.5 Sonnet，目前也在 Claude 官网上上线了。 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/701e1518-84a9-4abf-b696-06525afa2fe1.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="921" height="419" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/701e1518-84a9-4abf-b696-06525afa2fe1.png"/> 可以看到有了 new 的标签。 我直接发了最简单的一句话：给我生成一个非常精美的俄罗斯方块游戏。 然后，升级版 Claude 3.5 Sonnet，就开始嘟嘟嘟的生成。 直接一次性生成了 280 行代码，而且这个游戏，是真的可以直接玩的。。 也可以直接让它生成一个随时可调可互动的动效模拟器，彻底改变学习方式。 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/dca90244-83fe-4f4f-974d-a34beee22b28.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="511" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/dca90244-83fe-4f4f-974d-a34beee22b28.png"/> 就，非常的酷。 其次是 Claude 3.5 Haiku。 这个其实就没太多可说的了，常规升级，但是是目前最快、性价比最高的模型。 在跟 Claude 3 Haiku 的相同成本和速度下，直接击败了参数量最大的 Claude 3 Opus。 在编码任务上，居然能直接打败没升级前的 Claude 3.5 Sonnet，这个是最离谱的。 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/2a55c8df-a85b-4630-aac5-f82396382c90.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="267" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/2a55c8df-a85b-4630-aac5-f82396382c90.png"/> 只能说，Anthropic 的强化学习范式走的还是太超前了，合成数据的质量实在是太高太高了。 那最后，也是最重磅的一点，Claude 的 “computer use”，也就是新功能，计算机控制。 这个点就非常的科幻，能够实时分析用户计算机屏幕上的活动，并自主执行在线任务，比如浏览、点击和输入。 我直接放一个官方 case 吧。 Anthropic 是这么描述这个 “计算机控制” 的功能的：“Claude 3.5 Sonnet 可以按照用户的命令在计算机屏幕上移动光标，点击相关位置，并通过虚拟键盘输入信息，模拟人们与自己计算机的互动方式。” 这，就是一个能理解用户意图，并帮他自主实现的真正的 Agent。 以前的 Agent，说实话，看上去更像一个 RPA，就是根据预设好的工作流，一步一步的执行下去，但是真正的 Agent 应该是什么样？ 在我看来，他就应该跟人一样，能理解你的复杂语义，把这个复杂语义具象成可执行的步骤，就像我说现在“凌晨 3 点半了我太困了，但是文章还没有写完，你帮我看看附近有没有咖啡买，有的话帮我买一杯，没有的话就算了。” 如果是个人，那肯定是会打开美团外卖或者饿了么，看看附近有没有咖啡店开着，如果有开着的，看看我最喜欢喝的冰美式有没有的，没有冰美式的话问我一句要换什么口味？然后下单，等待送达。 如果 3 点半附近都关门了，那也应该告诉我，附近没卖的了，哥们你自己撑一撑吧，一会就能睡了。 这才是 AI，这才是我们身边，能进入到普通人生活中的，最酷的 AI 助手。 而这种 AI 助手，它势必，需要学会操作手机或者电脑。 我们不止要让 AI 学会写文章，学会画图，也要让他学会操作。 这样，才能有很强的，自主探索、解决问题的泛化能力。 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/2d3bb8b5-1065-469d-9138-2cad232506cc.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="841" height="443" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/2d3bb8b5-1065-469d-9138-2cad232506cc.png"/> 而升级版 Claude 3.5 ，只是在一些简单软件上进行了训练，就有了操作一些不复杂软件的能力，甚至还会自我纠错，不断重试，这又何尝不是一种强化学习、自我博弈呢？ Anthropic，真的吧 Self-Play 玩出花了。 目前，在测试开发者让模型使用计算机的一个基准评估（OSWorld）中，Claude 目前得分为 14.9%。 而人类水平通常为 70-75%，虽然差距很大，还有一些路要走，但已经远高于目前其他最好 AI 模型的 7.7% 这个分数了。 不过现在这个功能普通用户还用不到，只对开发者进行开放，有 API 接入，Anthropic 的本意是还在前期测试阶段，怕有危险，所以让开发先帮忙测试一下。 我们也花了 N 久时间，把 API 接入进来，做了一些简单的测试。 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/4dcae35e-80d3-41e9-88b2-e7abc25b40ea.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="736" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/4dcae35e-80d3-41e9-88b2-e7abc25b40ea.png"/> 先装了一个类似于模拟系统的东西，一切行为都会在这个模拟系统里运行，Anthropic 还是怕对你的系统会有一个不可逆转的损害影响。 我测了很多个 case，但是说实话，一是速度实在太磨叽了...二是成功率，确实还有点低下。 比如这个案例：“打开淘宝网站页面，找到小米手机官方旗舰店，找一个 2000 左右的手机，加到购物车。” 其实不算难，说实话。 但是 Claude 翻车了，翻车的点也很搞笑，是在输入店名上，人明明叫小米官方旗舰店，它非要写 “方店”，后面又试了一次，这次连两个字都不写了，直接写了一个字 “舰”，这能搜到才有鬼了... 而且，这个视频我已经两倍速了，你们可以感受一下它有多慢。。 不过，让他玩 2048，它玩的倒是非常的开心。这一次，是三倍速。 玩的还挺好，我感觉在这放着，他一个人能玩到天荒地老。这倒也是挺有趣的。 当然，也能做一些很实际的事情，比如给我的浏览器装一个可以屏蔽广告的插件。 他居然把插件地址背下来了，直接输入，给我搜索 + 安装一步到位。 起飞。 虽然总体任务的成功率还比较一般，但是还好，毕竟 Claude 自己也说了，成功率没那么高。 而且，这只是第一代。 他们坚信，使模型适应工具，这是必然，而模型也可以融入我们每天使用的环境里，成为我们生活的方方面面。 他们的目标是让 Claude 使用现有的计算机软件，就像人一样。就像人一样。 真好。希望这个愿景，能在不远的未来达成。 我真的，很想拥有一个自己的。 贾维斯。 </div>

谷歌-C

谷歌-A

OpenAI

Claude 3.5 正式上线，推出了新功能 “计算机操控”，使其成为真正的智能代理，能够理解用户意图并自主执行任务。新模型 Claude 3.5 Sonnet 和 Claude 3.5 Haiku 的性能显著提升，尤其在推理、知识和编程能力方面表现出色。此升级标志着 AI 在自主探索和问题解决能力上的重要进展。

- Claude 3.5 Sonnet 和 Haiku 新模型发布，具备更强的编程能力。  
- 新功能 “计算机操控” 可实时执行用户命令，提升 AI 助手的实用性。  
- 目前功能仍在测试阶段，成功率有待提高，但潜力巨大。  

加强版 Claude3.5 正式上线，一句话操控电脑的时代真的要来了