表格识别效果炸裂！小红书dots.ocr 与百度PaddleOCR对比评测

柩通奉 发表于 2025-8-12 08:54:12

OCR领域又迎来了新玩家——dots.ocr。这是小红书Hi Lab最近发布的一款基于视觉语言模型的LLM，仅有1.7B参数。由于OCR在各类应用中几乎不可或缺，且该领域许久未见新面孔，这成功引起了AI指令员的注意。其官网介绍如下：
dots.ocr是一个强大的多语言文档解析器，它在一个视觉语言模型中统一了布局检测和内容识别，同时保持了良好的阅读顺序。尽管其基础是紧凑的 1.7B 参数 LLM，但它实现了最先进的(SOTA)性能。
强大性能：dots.ocr 在 OmniDocBench 上实现了文本、表格和阅读顺序的 SOTA 性能，同时提供的公式识别结果与 Doubao-1.5 和 gemini2.5-pro 等更大的模型相当。
多语言支持：dots.ocr 展示了在低资源语言上的强大解析能力，在我们的多语言文档基准测试中，在布局检测和内容识别方面均取得了决定性优势。
统一且简单的架构：通过利用单一视觉语言模型，dots.ocr 比依赖复杂、多模型管道的常规方法提供了显著更精简的架构。通过改变输入提示即可在任务间切换，证明视觉语言模型可以实现与传统检测模型（如 DocLayout-YOLO）相比具有竞争力的检测结果。
高效且快速的性能：基于紧凑的 1.7B LLM 构建，dots.ocr 提供了比许多基于更大基础的高性能模型更快的推理速度。

那么，其实际效果如何？我们将dots.ocr与OCR领域的长期霸主——百度PaddleOCR进行横向对比评测，探讨这个基于视觉语言模型的OCR是否能在某些方面超越PaddleOCR。
本次测评内容涵盖表格识别、公式识别、报纸版面识别、手写体识别、发票识别、报销单识别，全面比较dots.ocr和paddleOCR在各个方面的表现。
详细测评内容请关注微信公众号“AI指令员”，回复ocr，获取完整测评分析报告！

来源：程序园用户自行投稿发布，如果侵权，请联系站长删除
免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！

辜酗徇 发表于 2025-11-1 22:40:31

感谢分享

万妙音 发表于 2025-11-6 02:10:23

过来提前占个楼

魁睥发表于 2025-12-18 10:14:48

新版吗？好像是停更了吧。

谭皎洁 发表于 2025-12-30 21:19:16

感谢分享，下载保存了，貌似很强大

百里宵月 发表于 2026-1-19 00:08:57

感谢，下载保存了

敕码发表于 2026-1-20 11:07:26

感谢分享，学习下。

热琢发表于 2026-1-21 19:11:24

感谢分享，学习下。

鞍注塔 发表于 2026-1-22 10:51:29

谢谢分享，试用一下

刘凤发表于 2026-1-24 12:35:00

感谢，下载保存了

少屠发表于 2026-1-24 13:11:37

这个好，看起来很实用

铜坠匍 发表于 2026-1-28 08:52:52

感谢发布原创作品，程序园因你更精彩

裴竹悦 发表于 2026-2-2 07:18:28

很好很强大我过来先占个楼待编辑

糙昧邵 发表于 2026-2-3 04:45:52

喜欢鼓捣这些软件，现在用得少，谢谢分享！

矛赓宁 发表于 2026-2-3 05:19:36

东西不错很实用谢谢分享

骆贵发表于 2026-2-3 07:25:55

热心回复！

艋佰傧 发表于 2026-2-3 10:12:22

谢谢分享，辛苦了

宛蛲发表于 2026-2-6 13:31:25

感谢发布原创作品，程序园因你更精彩

靳夏萱 发表于 2026-2-7 23:48:52

感谢分享

娄静曼 发表于 2026-2-8 04:44:15

分享、互助让互联网精神温暖你我

页: [1] 2

程序园's Archiver

表格识别效果炸裂！小红书dots.ocr 与百度PaddleOCR对比评测