柩通奉 发表于 2025-8-12 08:54:12

表格识别效果炸裂!小红书dots.ocr 与百度PaddleOCR对比评测

OCR领域又迎来了新玩家——dots.ocr。这是小红书Hi Lab最近发布的一款基于视觉语言模型的LLM,仅有1.7B参数。由于OCR在各类应用中几乎不可或缺,且该领域许久未见新面孔,这成功引起了AI指令员的注意。其官网介绍如下:
dots.ocr是一个强大的多语言文档解析器,它在一个视觉语言模型中统一了布局检测和内容识别,同时保持了良好的阅读顺序。尽管其基础是紧凑的 1.7B 参数 LLM,但它实现了最先进的(SOTA)性能。
强大性能:dots.ocr 在 OmniDocBench 上实现了文本、表格和阅读顺序的 SOTA 性能,同时提供的公式识别结果与 Doubao-1.5 和 gemini2.5-pro 等更大的模型相当。
多语言支持:dots.ocr 展示了在低资源语言上的强大解析能力,在我们的多语言文档基准测试中,在布局检测和内容识别方面均取得了决定性优势。
统一且简单的架构:通过利用单一视觉语言模型,dots.ocr 比依赖复杂、多模型管道的常规方法提供了显著更精简的架构。通过改变输入提示即可在任务间切换,证明视觉语言模型可以实现与传统检测模型(如 DocLayout-YOLO)相比具有竞争力的检测结果。
高效且快速的性能:基于紧凑的 1.7B LLM 构建,dots.ocr 提供了比许多基于更大基础的高性能模型更快的推理速度。

那么,其实际效果如何?我们将dots.ocr与OCR领域的长期霸主——百度PaddleOCR进行横向对比评测,探讨这个基于视觉语言模型的OCR是否能在某些方面超越PaddleOCR。
本次测评内容涵盖表格识别、公式识别、报纸版面识别、手写体识别、发票识别、报销单识别,全面比较dots.ocr和paddleOCR在各个方面的表现。
详细测评内容请关注微信公众号“AI指令员”,回复ocr,获取完整测评分析报告!


来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!

辜酗徇 发表于 2025-11-1 22:40:31

感谢分享

万妙音 发表于 2025-11-6 02:10:23

过来提前占个楼

魁睥 发表于 2025-12-18 10:14:48

新版吗?好像是停更了吧。

谭皎洁 发表于 2025-12-30 21:19:16

感谢分享,下载保存了,貌似很强大

百里宵月 发表于 2026-1-19 00:08:57

感谢,下载保存了

敕码 发表于 2026-1-20 11:07:26

感谢分享,学习下。

热琢 发表于 2026-1-21 19:11:24

感谢分享,学习下。

鞍注塔 发表于 2026-1-22 10:51:29

谢谢分享,试用一下

刘凤 发表于 2026-1-24 12:35:00

感谢,下载保存了

少屠 发表于 2026-1-24 13:11:37

这个好,看起来很实用

铜坠匍 发表于 2026-1-28 08:52:52

感谢发布原创作品,程序园因你更精彩

裴竹悦 发表于 2026-2-2 07:18:28

很好很强大我过来先占个楼 待编辑

糙昧邵 发表于 2026-2-3 04:45:52

喜欢鼓捣这些软件,现在用得少,谢谢分享!

矛赓宁 发表于 2026-2-3 05:19:36

东西不错很实用谢谢分享

骆贵 发表于 2026-2-3 07:25:55

热心回复!

艋佰傧 发表于 2026-2-3 10:12:22

谢谢分享,辛苦了

宛蛲 发表于 2026-2-6 13:31:25

感谢发布原创作品,程序园因你更精彩

靳夏萱 发表于 2026-2-7 23:48:52

感谢分享

娄静曼 发表于 2026-2-8 04:44:15

分享、互助 让互联网精神温暖你我
页: [1] 2
查看完整版本: 表格识别效果炸裂!小红书dots.ocr 与百度PaddleOCR对比评测