究极干货 —— 用最纯粹的语言，解析 DeepSeek OCR

糙昧邵 · 3 天前

楔子

最近看到了一篇极具启发性的论文：《DeepSeek-OCR: Contexts Optical Compression》, AI 大神 Andrej Karpathy 对 DeepSeek 那篇 DeepSeek-OCR 的论文评价很高，你可能以为他会说：“哇，这个 OCR 模型真厉害，识别率又提升了！”

但他没有。相反，他几乎是挥了挥手说：“它是个不错的 OCR 模型，但这不重要。” 因为真正令人兴奋的，是这篇论文引出的一个更具颠覆性的想法：我们是不是从一开始就喂了错误的“语料”给 AI 了？

Karpathy 的核心观点是：也许，大型语言模型（LLM）的输入端，根本就不应该是“文本”（Text），而应该永远是“像素”（Pixels）。

这个想法听起来有点绕。我们明明有纯文本，为什么非要先把它“渲染”成一张图片，再喂给 AI 去看呢？

首先，这是个效率问题。

我们现在用“文本”喂 AI，是通过一个叫“Tokenizer”（分词器）的东西，把句子切成一个个“词元”（Token）。比如“Hello, world!”可能被切成 ["Hello", ",", " world", "!"]。问题是，这种方式可能很“浪费”。

而 DeepSeek-OCR 这篇论文无意中提供了一个佐证：它证明了，AI 可以只用 100 个“视觉词元”（Vision Tokens），就高精度地“解压缩”出包含 1000 个“文本词元”的原文内容。这就像，你给AI的不是一长串啰嗦的文字，而是一小块高密度的“信息压缩饼干”（图片）。AI “吃” 下去（处理）的上下文窗口更短，效率自然更高。

信息更“保真”，不再丢失细节

想象一下，你让 AI 帮你阅读一个网页。现在的“文本”输入方式，就像是你通过电话把网页内容念给 AI 听。所有加粗、颜色、字体大小、排版布局……这些视觉信息全都丢失了。

而“像素”输入方式，就像是你直接截了一张图发给 AI。哪个信息更全？不言而喻。Karpathy 认为，像素是一个“信息流更广”的输入方式。它不仅能处理纯文本，还能自然地理解文本的样式（粗体、颜色），甚至页面上任意的图表和图像。

绕开 AI 分词器

前面两点只是铺垫，Karpathy 真正的“怨念”在于：他想彻底干掉“分词器”（Tokenizer）。他直言不讳地“炮轰”：“我必须再说一次我有多讨厌分词器。分词器是丑陋的、分离的、非端到端的。它 ‘进口’ 了所有 Unicode 编码、字节编码的丑陋之处，继承了大量历史包袱，还带来了安全/越狱风险……它必须被淘汰。”

为什么他这么恨分词器？分词器就像是 AI 的“嘴替”和“眼替”，它强行介入在“原始文本”和“AI 大脑”之间。这个“中间商”不仅笨拙，而且会扭曲信息。

Karpathy 举了个绝妙的例子：一个笑脸表情符号 “
来源：程序园用户自行投稿发布，如果侵权，请联系站长删除
免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！

账号		自动登录	找回密码
密码			立即注册

究极干货 —— 用最纯粹的语言，解析 DeepSeek OCR

楔子

首先，这是个效率问题。

信息更“保真”，不再丢失细节

绕开 AI 分词器

相关帖子

浏览过的版块

签约作者

究极干货 —— 用最纯粹的语言，解析 DeepSeek OCR

楔子

首先，这是个效率问题。

信息更“保真”，不再丢失细节

绕开 AI 分词器

相关帖子

相关推荐

浏览过的版块

签约作者