登录
/
注册
首页
论坛
其它
首页
科技
业界
安全
程序
广播
Follow
关于
博客
发1篇日志+1圆
记录
发1条记录+2圆币
发帖说明
登录
/
注册
账号
自动登录
找回密码
密码
登录
立即注册
搜索
搜索
关闭
CSDN热搜
程序园
精品问答
技术交流
资源下载
本版
帖子
用户
软件
问答
教程
代码
VIP网盘
VIP申请
网盘
联系我们
道具
勋章
任务
设置
我的收藏
退出
腾讯QQ
微信登录
返回列表
首页
›
业界区
›
安全
›
表格识别效果炸裂!小红书dots.ocr 与百度PaddleOCR对比 ...
表格识别效果炸裂!小红书dots.ocr 与百度PaddleOCR对比评测
[ 复制链接 ]
柩通奉
5 小时前
OCR领域又迎来了新玩家——dots.ocr。这是小红书Hi Lab最近发布的一款基于视觉语言模型的LLM,仅有1.7B参数。由于OCR在各类应用中几乎不可或缺,且该领域许久未见新面孔,这成功引起了AI指令员的注意。其官网介绍如下:
dots.ocr是一个强大的多语言文档解析器,它在一个视觉语言模型中统一了布局检测和内容识别,同时保持了良好的阅读顺序。尽管其基础是紧凑的 1.7B 参数 LLM,但它实现了最先进的(SOTA)性能。
强大性能
:dots.ocr 在 OmniDocBench 上实现了文本、表格和阅读顺序的 SOTA 性能,同时提供的公式识别结果与 Doubao-1.5 和 gemini2.5-pro 等更大的模型相当。
多语言支持
:dots.ocr 展示了在低资源语言上的强大解析能力,在我们的多语言文档基准测试中,在布局检测和内容识别方面均取得了决定性优势。
统一且简单的架构
:通过利用单一视觉语言模型,dots.ocr 比依赖复杂、多模型管道的常规方法提供了显著更精简的架构。通过改变输入提示即可在任务间切换,证明视觉语言模型可以实现与传统检测模型(如 DocLayout-YOLO)相比具有竞争力的检测结果。
高效且快速的性能
:基于紧凑的 1.7B LLM 构建,dots.ocr 提供了比许多基于更大基础的高性能模型更快的推理速度。
那么,其实际效果如何?我们将dots.ocr与OCR领域的长期霸主——百度PaddleOCR进行横向对比评测,探讨这个基于视觉语言模型的OCR是否能在某些方面超越PaddleOCR。
本次测评内容涵盖
表格识别、公式识别、报纸版面识别、手写体识别、发票识别、报销单识别
,全面比较dots.ocr和paddleOCR在各个方面的表现。
详细测评内容请关注微信公众号“
AI指令员
”,回复
ocr
,获取完整测评分析报告!
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
照妖镜
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
回复
本版积分规则
回帖并转播
回帖后跳转到最后一页
签约作者
程序园优秀签约作者
发帖
柩通奉
5 小时前
关注
0
粉丝关注
13
主题发布
板块介绍填写区域,请于后台编辑
财富榜{圆}
敖可
9984
凶契帽
9990
黎瑞芝
9990
4
杭环
9988
5
猷咎
9988
6
接快背
9988
7
里豳朝
9988
8
氛疵
9988
9
葛雅隽
9988
10
恐肩
9986
查看更多