拓炊羡 发表于 2025-10-1 19:19:10

[PaperReading] Qwen2-VL: Enhancing Vision-Language

目录

[*]Qwen2-VL: Enhancing Vision-Language Model’s Perception of the World at Any Resolution
[*]TL;DR
[*]Method

[*]Naive Dynamic Resolution
[*]Multimodal Rotary Position Embedding (M-RoPE)
[*]Unified Image and Video Understanding
[*]Training

[*]Experiment
[*]Q&A
[*]总结与思考
[*]相关链接

Qwen2-VL: Enhancing Vision-Language Model’s Perception of the World at Any Resolution

link
时间:24.09
单位:Qween
作者:Peng Wang
相关领域:多模态理解
被引次数:1527
项目主页:
https://github.com/QwenLM/Qwen2.5-VL
TL;DR

Qween2-VL相对于上一代:

[*]支持原生动态图片分辨率输入
[*]使用M-RoPE更高效将位置信息融合至多模态输入中
[*]构建统一架构将图像、视频融入模型中
[*]多尺寸模型:2B、8B、72B
Method


Naive Dynamic Resolution

固定patch_size的分辨率,根据输入图像动态分辨率,动态计算出token sequence,再增加vision_start与vision_end的两个特殊token,例如,分辨率为224x224的图像对应66 tokens,计算方式如下:
\(224 / 14 = 16\)
\(16 / 2\) x \(16 / 2 + 2 = 66\)
Multimodal Rotary Position Embedding (M-RoPE)

将位置编码按照(temporal, height, width)三种ID来表示,若是text模态则三者一样,若是图像模态 temporal ID保持固定,height与width随图像不同位置变化,若是视频模态,则不同帧temporal ID也随之变化。

Unified Image and Video Understanding


[*]采样​​:以2FPS的速率从视频中抽取帧序列。
[*]统一表示​​:将每张静态图像视为一个只有2帧的“微视频”​​,这两帧是​​完全相同​​的图像。
[*]3D建模​​:使用轻量级3D卷积ViT处理立方体,生成融合了时空信息的视觉token序列。
[*]令牌长度限制:将每个视频输入的总token数上限设置为 ​​16,384。
Training

与Qween的三阶段训练策略一致,只不过使用的数据量不一样:

[*]Vision Encoder训练
[*]全参数微调
[*]指令微调
Experiment

能力展示

全家桶

与SOTA对比

分辨率
归功于“Naive Dynamic Resolution”训练,Qween2-VL受分辨率影响不大

M-RoPE
优势:

[*]对于长度外推有好处
[*]Image/Video Benchmarks上比1D-RoPE更好
[*]
Q&A

Q:相对于上一代QweenVL有多大提升?
未对比
Q:相对于上一代模型尺寸、训练数据量变化?

Q:为什么M-RoPE会对长度外推有好处?
长度外推是指模型在​​推理时​​处理比​​训练时​​见过的​​更长的序列​​的能力。这是一个极具挑战性的任务,因为模型必须理解训练数据中未曾出现过的位置关系。

[*]​​维度解耦​​:将不同模态的位置信息分离到时间、高、宽三个独立维度,避免了单一序列中外推时不同模态位置信息的冲突与混淆,这是其​​最核心的贡献​​。
[*]相对位置感知​​:继承了RoPE的优良特性,使模型专注于学习相对位置关系而非绝对位置,从而能更好地泛化到更长的序列。
[*]数值平滑稳定​​:基于旋转正弦余弦函数的编码方式确保了外推时数值计算的稳定性和可预测性,避免了数值异常。
总结与思考


相关链接

https://zhuanlan.zhihu.com/p/1944799681357017732

来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!

骆熙华 发表于 2025-11-6 18:09:06

很好很强大我过来先占个楼 待编辑

敛饺乖 发表于 2025-11-21 09:37:38

感谢分享,下载保存了,貌似很强大

恿榫 发表于 2025-11-23 22:41:35

用心讨论,共获提升!

打阗渖 发表于 2025-12-13 17:42:56

谢谢分享,辛苦了

阴昭昭 发表于 2025-12-15 07:10:57

感谢,下载保存了

豌笆 发表于 2026-1-16 03:49:48

懂技术并乐意极积无私分享的人越来越少。珍惜

公西颖初 发表于 2026-1-18 10:39:24

不错,里面软件多更新就更好了

连热 发表于 2026-1-20 02:09:25

感谢发布原创作品,程序园因你更精彩

福清婉 发表于 2026-1-25 07:54:53

东西不错很实用谢谢分享

鞠彗云 发表于 2026-1-30 04:05:24

收藏一下   不知道什么时候能用到

魁睥 发表于 2026-2-2 02:13:57

感谢分享,学习下。

管水芸 发表于 2026-2-2 03:13:25

yyds。多谢分享

岳娅纯 发表于 2026-2-3 06:26:32

谢谢楼主提供!

裒噎 发表于 2026-2-4 08:42:56

收藏一下   不知道什么时候能用到

溶绚 发表于 2026-2-4 10:39:22

新版吗?好像是停更了吧。

涂流如 发表于 2026-2-11 17:12:26

感谢,下载保存了

皮仪芳 发表于 2026-2-12 06:18:51

感谢发布原创作品,程序园因你更精彩

溧久苟 发表于 2026-2-13 06:52:39

东西不错很实用谢谢分享

蒲善思 发表于 2026-2-26 03:30:17

懂技术并乐意极积无私分享的人越来越少。珍惜
页: [1] 2
查看完整版本: [PaperReading] Qwen2-VL: Enhancing Vision-Language