糙昧邵 发表于 2025-11-2 19:20:02

究极干货 —— 用最纯粹的语言,解析 DeepSeek OCR

<h1 id="楔子"><strong>楔子</strong></h1>
<p>最近看到了一篇极具启发性的论文:<strong>《DeepSeek-OCR: Contexts Optical Compression》</strong>, AI 大神 Andrej Karpathy 对 DeepSeek 那篇 DeepSeek-OCR 的论文评价很高,你可能以为他会说:“哇,这个 OCR 模型真厉害,识别率又提升了!”</p>
<p>但他没有。相反,他几乎是挥了挥手说:“它是个不错的 OCR 模型,但这不重要。” 因为真正令人兴奋的,是这篇论文引出的一个更具颠覆性的想法:我们是不是从一开始就喂了错误的“语料”给 AI 了?</p>
<p>Karpathy 的核心观点是:也许,大型语言模型(LLM)的输入端,根本就不应该是“文本”(Text),而应该永远是“像素”(Pixels)。</p>
<p>这个想法听起来有点绕。我们明明有纯文本,为什么非要先把它“渲染”成一张图片,再喂给 AI 去看呢?</p>
<p></p>
<h2 id="首先这是个效率问题"><strong>首先,这是个效率问题。</strong></h2>
<p>我们现在用“文本”喂 AI,是通过一个叫“Tokenizer”(分词器)的东西,把句子切成一个个“词元”(Token)。比如“Hello, world!”可能被切成 ["Hello", ",", " world", "!"]。问题是,这种方式可能很“浪费”。</p>
<p>而 DeepSeek-OCR 这篇论文无意中提供了一个佐证:它证明了,AI 可以只用 100 个“视觉词元”(Vision Tokens),就高精度地“解压缩”出包含 1000 个“文本词元”的原文内容。这就像,你给AI的不是一长串啰嗦的文字,而是一小块高密度的“信息压缩饼干”(图片)。AI “吃” 下去(处理)的上下文窗口更短,效率自然更高。</p>
<h2 id="信息更保真不再丢失细节"><strong>信息更“保真”,不再丢失细节</strong></h2>
<p>想象一下,你让 AI 帮你阅读一个网页。现在的“文本”输入方式,就像是你通过电话把网页内容念给 AI 听。所有加粗、颜色、字体大小、排版布局……这些视觉信息全都丢失了。</p>
<p>而“像素”输入方式,就像是你直接截了一张图发给 AI。哪个信息更全?不言而喻。Karpathy 认为,像素是一个“信息流更广”的输入方式。它不仅能处理纯文本,还能自然地理解文本的样式(粗体、颜色),甚至页面上任意的图表和图像。</p>
<h2 id="绕开-ai-分词器"><strong>绕开 AI 分词器</strong></h2>
<p>前面两点只是铺垫,Karpathy 真正的“怨念”在于:他想彻底干掉“分词器”(Tokenizer)。他直言不讳地“炮轰”:“我必须再说一次我有多讨厌分词器。分词器是丑陋的、分离的、非端到端的。它 ‘进口’ 了所有 Unicode 编码、字节编码的丑陋之处,继承了大量历史包袱,还带来了安全/越狱风险……它必须被淘汰。”</p>
<p>为什么他这么恨分词器?分词器就像是 AI 的“嘴替”和“眼替”,它强行介入在“原始文本”和“AI 大脑”之间。这个“中间商”不仅笨拙,而且会扭曲信息。</p>
<p>Karpathy 举了个绝妙的例子:一个笑脸表情符号 “<br>来源:程序园用户自行投稿发布,如果侵权,请联系站长删除<br>免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!

倡粤 发表于 2025-11-27 06:31:26

谢谢分享,试用一下

埤兆 发表于 2025-11-27 23:01:49

用心讨论,共获提升!
页: [1]
查看完整版本: 究极干货 —— 用最纯粹的语言,解析 DeepSeek OCR