究极干货 —— 用最纯粹的语言，解析 DeepSeek OCR

糙昧邵 发表于 2025-11-2 19:20:02

<h1 id="楔子"><strong>楔子</strong></h1>
<p>最近看到了一篇极具启发性的论文：<strong>《DeepSeek-OCR: Contexts Optical Compression》</strong>, AI 大神 Andrej Karpathy 对 DeepSeek 那篇 DeepSeek-OCR 的论文评价很高，你可能以为他会说：“哇，这个 OCR 模型真厉害，识别率又提升了！”</p>
<p>但他没有。相反，他几乎是挥了挥手说：“它是个不错的 OCR 模型，但这不重要。” 因为真正令人兴奋的，是这篇论文引出的一个更具颠覆性的想法：我们是不是从一开始就喂了错误的“语料”给 AI 了？</p>
<p>Karpathy 的核心观点是：也许，大型语言模型（LLM）的输入端，根本就不应该是“文本”（Text），而应该永远是“像素”（Pixels）。</p>
<p>这个想法听起来有点绕。我们明明有纯文本，为什么非要先把它“渲染”成一张图片，再喂给 AI 去看呢？</p>
<p></p>
<h2 id="首先这是个效率问题"><strong>首先，这是个效率问题。</strong></h2>
<p>我们现在用“文本”喂 AI，是通过一个叫“Tokenizer”（分词器）的东西，把句子切成一个个“词元”（Token）。比如“Hello, world!”可能被切成 ["Hello", ",", " world", "!"]。问题是，这种方式可能很“浪费”。</p>
<p>而 DeepSeek-OCR 这篇论文无意中提供了一个佐证：它证明了，AI 可以只用 100 个“视觉词元”（Vision Tokens），就高精度地“解压缩”出包含 1000 个“文本词元”的原文内容。这就像，你给AI的不是一长串啰嗦的文字，而是一小块高密度的“信息压缩饼干”（图片）。AI “吃” 下去（处理）的上下文窗口更短，效率自然更高。</p>
<h2 id="信息更保真不再丢失细节"><strong>信息更“保真”，不再丢失细节</strong></h2>
<p>想象一下，你让 AI 帮你阅读一个网页。现在的“文本”输入方式，就像是你通过电话把网页内容念给 AI 听。所有加粗、颜色、字体大小、排版布局……这些视觉信息全都丢失了。</p>
<p>而“像素”输入方式，就像是你直接截了一张图发给 AI。哪个信息更全？不言而喻。Karpathy 认为，像素是一个“信息流更广”的输入方式。它不仅能处理纯文本，还能自然地理解文本的样式（粗体、颜色），甚至页面上任意的图表和图像。</p>
<h2 id="绕开-ai-分词器"><strong>绕开 AI 分词器</strong></h2>
<p>前面两点只是铺垫，Karpathy 真正的“怨念”在于：他想彻底干掉“分词器”（Tokenizer）。他直言不讳地“炮轰”：“我必须再说一次我有多讨厌分词器。分词器是丑陋的、分离的、非端到端的。它 ‘进口’ 了所有 Unicode 编码、字节编码的丑陋之处，继承了大量历史包袱，还带来了安全/越狱风险……它必须被淘汰。”</p>
<p>为什么他这么恨分词器？分词器就像是 AI 的“嘴替”和“眼替”，它强行介入在“原始文本”和“AI 大脑”之间。这个“中间商”不仅笨拙，而且会扭曲信息。</p>
<p>Karpathy 举了个绝妙的例子：一个笑脸表情符号 “<br>来源：程序园用户自行投稿发布，如果侵权，请联系站长删除<br>免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！

倡粤发表于 2025-11-27 06:31:26

谢谢分享，试用一下

埤兆发表于 2025-11-27 23:01:49

用心讨论，共获提升！

页: [1]

程序园's Archiver

究极干货 —— 用最纯粹的语言，解析 DeepSeek OCR