楔子
最近看到了一篇极具启发性的论文:《DeepSeek-OCR: Contexts Optical Compression》, AI 大神 Andrej Karpathy 对 DeepSeek 那篇 DeepSeek-OCR 的论文评价很高,你可能以为他会说:“哇,这个 OCR 模型真厉害,识别率又提升了!”
但他没有。相反,他几乎是挥了挥手说:“它是个不错的 OCR 模型,但这不重要。” 因为真正令人兴奋的,是这篇论文引出的一个更具颠覆性的想法:我们是不是从一开始就喂了错误的“语料”给 AI 了?
Karpathy 的核心观点是:也许,大型语言模型(LLM)的输入端,根本就不应该是“文本”(Text),而应该永远是“像素”(Pixels)。
这个想法听起来有点绕。我们明明有纯文本,为什么非要先把它“渲染”成一张图片,再喂给 AI 去看呢?
首先,这是个效率问题。
我们现在用“文本”喂 AI,是通过一个叫“Tokenizer”(分词器)的东西,把句子切成一个个“词元”(Token)。比如“Hello, world!”可能被切成 ["Hello", ",", " world", "!"]。问题是,这种方式可能很“浪费”。
而 DeepSeek-OCR 这篇论文无意中提供了一个佐证:它证明了,AI 可以只用 100 个“视觉词元”(Vision Tokens),就高精度地“解压缩”出包含 1000 个“文本词元”的原文内容。这就像,你给AI的不是一长串啰嗦的文字,而是一小块高密度的“信息压缩饼干”(图片)。AI “吃” 下去(处理)的上下文窗口更短,效率自然更高。
信息更“保真”,不再丢失细节
想象一下,你让 AI 帮你阅读一个网页。现在的“文本”输入方式,就像是你通过电话把网页内容念给 AI 听。所有加粗、颜色、字体大小、排版布局……这些视觉信息全都丢失了。
而“像素”输入方式,就像是你直接截了一张图发给 AI。哪个信息更全?不言而喻。Karpathy 认为,像素是一个“信息流更广”的输入方式。它不仅能处理纯文本,还能自然地理解文本的样式(粗体、颜色),甚至页面上任意的图表和图像。
绕开 AI 分词器
前面两点只是铺垫,Karpathy 真正的“怨念”在于:他想彻底干掉“分词器”(Tokenizer)。他直言不讳地“炮轰”:“我必须再说一次我有多讨厌分词器。分词器是丑陋的、分离的、非端到端的。它 ‘进口’ 了所有 Unicode 编码、字节编码的丑陋之处,继承了大量历史包袱,还带来了安全/越狱风险……它必须被淘汰。”
为什么他这么恨分词器?分词器就像是 AI 的“嘴替”和“眼替”,它强行介入在“原始文本”和“AI 大脑”之间。这个“中间商”不仅笨拙,而且会扭曲信息。
Karpathy 举了个绝妙的例子:一个笑脸表情符号 “ 来源:程序园用户自行投稿发布,如果侵权,请联系站长删除 免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作! |