--- title: "DeepSeek OCR 论文引爆网络!Andrej Karpathy:我很喜欢;马斯克:未来 99% 都是光子" description: "DeepSeek OCR 论文引发热议,AI 专家 Andrej Karpathy 表示非常喜欢,认为其是一个优秀的 OCR 模型。他探讨了像素作为 LLM 输入的潜力,认为像素可能比文本更优越,提出四大理由支持这一观点,包括更高的信息压缩效率、通用性、双向注意力处理的优势以及对 Tokenizer 的批评。" type: "news" locale: "zh-CN" url: "https://longbridge.com/zh-CN/news/261984305.md" published_at: "2025-10-21T05:55:39.000Z" --- # DeepSeek OCR 论文引爆网络!Andrej Karpathy:我很喜欢;马斯克:未来 99% 都是光子 > DeepSeek OCR 论文引发热议,AI 专家 Andrej Karpathy 表示非常喜欢,认为其是一个优秀的 OCR 模型。他探讨了像素作为 LLM 输入的潜力,认为像素可能比文本更优越,提出四大理由支持这一观点,包括更高的信息压缩效率、通用性、双向注意力处理的优势以及对 Tokenizer 的批评。 刚刚,AI 大神 Andrej Karpathy 表示非常喜欢 DeepSeek OCR 论文,原话: > 我相当喜欢新的 DeepSeek-OCR 论文。它是一个很好的 OCR 模型(可能比 dots 稍微差一点),是的,数据收集等等,但无论如何都不重要。对我来说更有趣的部分(尤其是作为一个以计算机视觉为核心,暂时伪装成自然语言的人)是像素是否比文本更适合作为 LLM 的输入。文本标记是否浪费且糟糕,作为输入。 还不知什么情况的看我昨天的文章:DeepSeek 王炸:10 倍压缩率,97% 解码精度!上下文光学压缩登场 Karpathy 认为,抛开模型本身不谈,deepseek 这篇论文引出了一个更值得深思的问题:对于 LLM 来说,像素是否是比文本更优越的输入形式?文本 Token 是否既浪费又糟糕? 他进一步设想,或许所有 LLM 的输入都只应该是图像。即便是纯文本内容,也应该先渲染成图片再输入给模型 Karpathy 给出了支持这一构想的四大核心理由: **1\. 更高的信息压缩效率** 将文本渲染成图像,可以实现更高的信息压缩,这意味着更短的上下文窗口和更高的运行效率 **2\. 更通用的信息流** 像素是一种远比文本更通用的信息流。它不仅能表示纯文本,还能轻松捕捉粗体、彩色文本,甚至是任意的图表和照片 **3\. 默认实现强大的双向注意力** 像素化的输入可以很自然、很轻松地默认使用双向注意力进行处理,这种处理方式比自回归注意力更为强大 **4\. 彻底淘汰 Tokenizer** Karpathy 毫不掩饰自己对 Tokenizer 的嫌弃。他认为 Tokenizer 是一个丑陋、独立、非端到端的阶段。它引入了 Unicode 和字节编码的所有丑陋之处,继承了大量历史包袱,并带来了安全和越狱风险(例如连续字节问题) 他举例说,Tokenizer 会导致两个在人眼看来完全相同的字符,在网络内部被表示为两个完全不同的 Token。一个笑脸 emoji,在模型看来只是一个奇怪的 Token,而不是一个由像素构成的、真实的笑脸,这导致模型无法利用其视觉信息带来的迁移学习优势。Tokenizer 必须消失,他强调 Karpathy 总结道,OCR 只是众多视觉到文本(vision -> text)任务中的一种。而传统的文本到文本(text -> text)任务,完全可以被重构成视觉到文本任务,反之则不行 他设想的未来交互模式可能是:用户的输入(Message)是图像,而解码器(Assistant 的响应)的输出仍然是文本。因为如何真实地输出像素,或者是否有必要这样做,目前还不明确 ## 核心争议:双向注意力与图像分块 对于 Karpathy 的观点,AI 学者 Yoav Goldberg 提出了两个疑问: 1.为什么说图像能轻松获得双向注意力,而文本不能? 2.虽然没有了 Tokenization,但将输入图像切分成图块(Patches),难道不是一种类似且可能更丑陋的处理方式吗? Karpathy 对此进行了解释。 他回应说,原则上没有任何东西阻止文本使用双向注意力。但为了效率,文本通常都是以自回归的方式进行训练的。他设想,可以在训练中期加入一个微调阶段,用双向注意力来处理作为条件的信息(比如用户的输入消息,因为这些 Token 不需要模型去生成)。但他不确定在实践中是否有人这样做。理论上,为了预测下一个 Token,甚至可以对整个上下文窗口进行双向编码,但这将导致训练无法并行化 最后他补充道,或许这个方面(双向注意力)严格来说并非像素与 Token 的本质区别,更多是像素通常被编码(encoded),而 Token 通常被解码(decoded)(借用原始 Transformer 论文的术语) ## 马斯克:未来 99% 是光子 在这场讨论的最后,Elon Musk 也现身评论区,并给出了一个更具未来感的判断: 从长远来看,AI 模型超过 99% 的输入和输出都将是光子。没有其他任何东西可以规模化 马斯克的这条评论并非随口一说。他进一步补充了一段堪称硬核的宇宙学科普,来解释为什么他认为 “光子” 是终极的规模化方案 简单来说,宇宙中绝大多数的粒子都是光子 而这些光子最主要的来源,是宇宙微波背景(CMB)。根据测算,CMB 的光子密度约为每立方厘米 410 个。将这个密度乘以可观测宇宙的巨大体积(半径约 465 亿光年),可以得出仅 CMB 贡献的光子数量就达到了一个惊人的数字:约 1.5 x 10⁸⁹个 相比之下,所有恒星发出的光子(星光)以及其他来源(如中微子背景、黑洞辐射等)贡献的数量,则完全可以忽略不计 这背后揭示的物理事实是:光子在数量级上拥有无与伦比的优势。这或许就是马斯克认为 AI 的未来输入输出将由光子主宰的底层逻辑 AI 寒武纪,原文标题:《DeepSeek OCR 论文引爆网络!Andrej Karpathy:我很喜欢;马斯克:未来 99% 都是光子》 风险提示及免责条款 市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。 ### Related Stocks - [DPSK.NA - 深度求索](https://longbridge.com/zh-CN/quote/DPSK.NA.md) ## Related News & Research | Title | Description | URL | |-------|-------------|-----| | OpenAI Warns Congress on DeepSeek Distillation Tactics | OpenAI has alerted US lawmakers about its Chinese competitor DeepSeek, which may be employing advanced distillation tact | [Link](https://longbridge.com/zh-CN/news/275935776.md) | | The best stocks to invest $1,000 in right now | These two stocks will give you AI-fueled growth at a reasonable value. | [Link](https://longbridge.com/zh-CN/news/276084303.md) | | Is It Time To Reopen The Franklin Child Prostitution Case After Epstein Revelations? | The article discusses the potential reopening of the Franklin Child Prostitution Case in light of new revelations from t | [Link](https://longbridge.com/zh-CN/news/276503065.md) | | Dalio's lengthy article: The old order is dead; trade wars and capital wars will become the norm. | Ray Dalio, founder of Bridgewater Associates, argues in a recent article that the world has entered a chaotic sixth stag | [Link](https://longbridge.com/zh-CN/news/276096530.md) | | Donald Trump and the disgrace of Presidents' Day | The article critiques Donald Trump's presidency, contrasting it with past leaders who valued restraint and the integrity | [Link](https://longbridge.com/zh-CN/news/276065154.md) | --- > **免责声明**:本文内容仅供参考,不构成任何投资建议。