找回密码
 立即注册
首页 业界区 安全 表格识别效果炸裂!小红书dots.ocr 与百度PaddleOCR对比 ...

表格识别效果炸裂!小红书dots.ocr 与百度PaddleOCR对比评测

柩通奉 5 小时前
OCR领域又迎来了新玩家——dots.ocr。这是小红书Hi Lab最近发布的一款基于视觉语言模型的LLM,仅有1.7B参数。由于OCR在各类应用中几乎不可或缺,且该领域许久未见新面孔,这成功引起了AI指令员的注意。其官网介绍如下:
dots.ocr是一个强大的多语言文档解析器,它在一个视觉语言模型中统一了布局检测和内容识别,同时保持了良好的阅读顺序。尽管其基础是紧凑的 1.7B 参数 LLM,但它实现了最先进的(SOTA)性能。
强大性能:dots.ocr 在 OmniDocBench 上实现了文本、表格和阅读顺序的 SOTA 性能,同时提供的公式识别结果与 Doubao-1.5 和 gemini2.5-pro 等更大的模型相当。
多语言支持:dots.ocr 展示了在低资源语言上的强大解析能力,在我们的多语言文档基准测试中,在布局检测和内容识别方面均取得了决定性优势。
统一且简单的架构:通过利用单一视觉语言模型,dots.ocr 比依赖复杂、多模型管道的常规方法提供了显著更精简的架构。通过改变输入提示即可在任务间切换,证明视觉语言模型可以实现与传统检测模型(如 DocLayout-YOLO)相比具有竞争力的检测结果。
高效且快速的性能:基于紧凑的 1.7B LLM 构建,dots.ocr 提供了比许多基于更大基础的高性能模型更快的推理速度。
1.png

那么,其实际效果如何?我们将dots.ocr与OCR领域的长期霸主——百度PaddleOCR进行横向对比评测,探讨这个基于视觉语言模型的OCR是否能在某些方面超越PaddleOCR。
本次测评内容涵盖表格识别、公式识别、报纸版面识别、手写体识别、发票识别、报销单识别,全面比较dots.ocr和paddleOCR在各个方面的表现。
详细测评内容请关注微信公众号“AI指令员”,回复ocr,获取完整测评分析报告!
2.jpeg


来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
您需要登录后才可以回帖 登录 | 立即注册