表格识别效果炸裂！小红书dots.ocr 与百度PaddleOCR对比评测

柩通奉 · 2025-8-12 08:54:12

OCR领域又迎来了新玩家——dots.ocr。这是小红书Hi Lab最近发布的一款基于视觉语言模型的LLM，仅有1.7B参数。由于OCR在各类应用中几乎不可或缺，且该领域许久未见新面孔，这成功引起了AI指令员的注意。其官网介绍如下：
dots.ocr是一个强大的多语言文档解析器，它在一个视觉语言模型中统一了布局检测和内容识别，同时保持了良好的阅读顺序。尽管其基础是紧凑的 1.7B 参数 LLM，但它实现了最先进的(SOTA)性能。
强大性能：dots.ocr 在 OmniDocBench 上实现了文本、表格和阅读顺序的 SOTA 性能，同时提供的公式识别结果与 Doubao-1.5 和 gemini2.5-pro 等更大的模型相当。
多语言支持：dots.ocr 展示了在低资源语言上的强大解析能力，在我们的多语言文档基准测试中，在布局检测和内容识别方面均取得了决定性优势。
统一且简单的架构：通过利用单一视觉语言模型，dots.ocr 比依赖复杂、多模型管道的常规方法提供了显著更精简的架构。通过改变输入提示即可在任务间切换，证明视觉语言模型可以实现与传统检测模型（如 DocLayout-YOLO）相比具有竞争力的检测结果。
高效且快速的性能：基于紧凑的 1.7B LLM 构建，dots.ocr 提供了比许多基于更大基础的高性能模型更快的推理速度。

那么，其实际效果如何？我们将dots.ocr与OCR领域的长期霸主——百度PaddleOCR进行横向对比评测，探讨这个基于视觉语言模型的OCR是否能在某些方面超越PaddleOCR。
本次测评内容涵盖表格识别、公式识别、报纸版面识别、手写体识别、发票识别、报销单识别，全面比较dots.ocr和paddleOCR在各个方面的表现。
详细测评内容请关注微信公众号“AI指令员”，回复ocr，获取完整测评分析报告！

来源：程序园用户自行投稿发布，如果侵权，请联系站长删除
免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！

辜酗徇 · 2025-11-1 22:40:31

感谢分享

万妙音 · 2025-11-6 02:10:23

过来提前占个楼

账号		自动登录	找回密码
密码			立即注册

表格识别效果炸裂！小红书dots.ocr 与百度PaddleOCR对比评测

相关帖子

回复

浏览过的版块

签约作者

表格识别效果炸裂！小红书dots.ocr 与百度PaddleOCR对比评测

相关帖子

相关推荐

回复

浏览过的版块

签约作者