登录
/
注册
首页
论坛
其它
首页
科技
业界
安全
程序
广播
Follow
关于
博客
发1篇日志+1圆
记录
发1条记录+2圆币
发帖说明
VIP申请
登录
/
注册
账号
自动登录
找回密码
密码
登录
立即注册
搜索
搜索
关闭
CSDN热搜
程序园
精品问答
技术交流
资源下载
本版
帖子
用户
软件
问答
教程
代码
VIP申请
VIP网盘
网盘
联系我们
道具
勋章
任务
设置
我的收藏
退出
腾讯QQ
微信登录
返回列表
首页
›
业界区
›
安全
›
小米又开源了,一个多模态大模型,一个生不逢时的推理大 ...
小米又开源了,一个多模态大模型,一个生不逢时的推理大模型
[ 复制链接 ]
蓬庄静
2025-6-4 18:14:18
大家好,我是 Ai 学习的老章
上月底,小米开源了一个大模型:MiMo-7B,它从零开始训练并专为推理任务设计的模型系列。通过优化的预训练和后训练策略,MiMo-7B 展现出了超越许多更大模型的推理潜力。
昨天,小米又开源了 MiMo-VL-7B 系列多模态大模型、MiMo-7B-RL-0530 系列推理模型
咱们挨个看一下情况
MiMo-VL-7B 系列
MiMo-VL-7B 系列多模态大模型支持文字、图像、视频输入
技术报告:https://github.com/XiaomiMiMo/MiMo-VL/blob/main/MiMo-VL-Technical-Report.pdf
模型文件:https://www.modelscope.cn/models/XiaomiMiMo/MiMo-VL-7B-RL/files
其中
MiMo-VL-7B-SFT 是经过投影器预热、视觉 - 语言对齐、通用多模态预训练和长上下文监督微调四个阶段预训练而得。
MiMo-VL-7B-RL 是 SFT 基础上引入了混合在线强化学习,无缝集成涵盖感知准确性、视觉基础精度、逻辑推理能力和人机偏好等多种奖励信号。
MiMo-VL-7B-RL 在多个方面都强于同等参数的 Qwen2.5-VL-7B(这个模型我在这篇文章中有介绍1 张 4090,本地部署多模态大模型,部署后我测试了几个图片理解问题,感觉 7B 做到这个程度,无可挑剔)
评估方面,感觉吹牛的可能性比较大
在一般的视觉语言理解中,MiMo-VL-7B 模型比同参数甚至更高参数的开源模型都优秀
在多模态推理中,SFT 和 RL 模型在这几项基准测试中均显著优于所有比较的开源基线。
MiMo-VL-7B-RL 具有出色的 GUI 理解和定位能力。作为一个通用的 VL 模型,MiMo-VL 达到了与专门针对 GUI 的模型相当甚至更优的表现。
PS:GUI 就是各种计算机操作的图形界面
MiMo-VL-7B 系列,既没有试用,又没有详细的本地部署文档,这一块,跟阿里差远了。
我真的蛮好奇是否真的可以吊打 Qwen2.5-VL-7B
改天部署试试
MiMo-7B-RL-0530 系列
模型文件:https://www.modelscope.cn/models/XiaomiMiMo/MiMo-7B-RL-0530/files 技术报告:https://arxiv.org/abs/2505.07608`
昨天小米还开源了 MiMo-7B-RL,太生不逢时了,赶上了DeepSeek R1 最新版本模型——DeepSeek-R1-0528,还有DeepSeek-R1-0528 蒸馏 Qwen3:8B 大模型,我用 2 张英伟达 4090 本地部署了,深得我心
模型细节就不看了,文末我用大模型基于小米这篇论文绘制了 PPT,感兴趣可以细看。
总结就是,在训练数据、预训练和后训练阶段都进行了优化,号称是在数学和代码推理任务上表现出色,达到了与 OpenAI o1-mini 相当的性能。
部署推理支持 SGLang 和 vLLM,前者 SGLang 官方已支持,vLLM 尚未合并分支,用起来稍麻烦
# Install the latest SGlang from main branch python3 -m uv pip install "sglang[all] @ git+https://github.com/sgl-project/sglang.git/@main#egg=sglang&subdirectory=python" # Launch SGLang Server SGLANG_USE_MODELSCOPE=true python3 -m sglang.launch_server --model-path XiaomiMiMo/MiMo-7B-RL --host 0.0.0.0 --trust-remote-code
复制代码
这个我就更懒的测试了,铁定不如DeepSeek-R1-0528-Qwen3-8B
小米这篇论文,我转成了 PPT,感兴趣看看
<strong>制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
一个
大模型
小米
开源
模态
相关帖子
知乎开源“智能预渲染框架” 几行代码实现鸿蒙应用页面“秒开”
使用VHF框架实现一个虚拟HID键盘
美团也出招了,LongCat-Flash 开源,主打一个快!
实现一个 AI 编辑器 - 行内代码生成篇
使用Java实现一个DNS服务
花椒直播首次开源推流器组件,为鸿蒙开发者提供高性能推流解决方案
我一个写Java的,怎么就开始玩K8s和Jenkins了?!
6. LangChain4j + 多模态视觉理解详细说明
攻克大模型训练网络瓶颈,天翼云论文获ACM ICS顶会收录!
基于大模型的电信网络诈骗预警技术研究
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
照妖镜
相关推荐
安全
知乎开源“智能预渲染框架” 几行代码实现鸿蒙应用页面“秒开”
0
1012
度阡舅
2025-09-01
业界
使用VHF框架实现一个虚拟HID键盘
0
968
东新
2025-09-01
业界
美团也出招了,LongCat-Flash 开源,主打一个快!
0
941
捡嫌
2025-09-02
业界
实现一个 AI 编辑器 - 行内代码生成篇
0
750
橘芜
2025-09-02
安全
使用Java实现一个DNS服务
0
132
秦晓曼
2025-09-03
安全
花椒直播首次开源推流器组件,为鸿蒙开发者提供高性能推流解决方案
0
126
蚬蕞遂
2025-09-03
业界
我一个写Java的,怎么就开始玩K8s和Jenkins了?!
0
573
役魅肋
2025-09-04
科技
6. LangChain4j + 多模态视觉理解详细说明
0
562
阙忆然
2025-09-04
科技
攻克大模型训练网络瓶颈,天翼云论文获ACM ICS顶会收录!
0
198
秦晓曼
2025-09-04
业界
基于大模型的电信网络诈骗预警技术研究
0
33
挽幽
2025-09-04
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
回复
本版积分规则
回帖并转播
回帖后跳转到最后一页
浏览过的版块
业界
签约作者
程序园优秀签约作者
发帖
蓬庄静
2025-6-4 18:14:18
关注
0
粉丝关注
18
主题发布
板块介绍填写区域,请于后台编辑
财富榜{圆}
敖可
9984
黎瑞芝
9990
杭环
9988
4
凶契帽
9988
5
氛疵
9988
6
猷咎
9986
7
里豳朝
9986
8
肿圬后
9986
9
段干叶农
9986
10
蝓俟佐
9984
查看更多