SimpleVQA: Multimodal Factuality Evaluation for Multimodal Large Language Models
背景LLM文本模型存在SimpleQA和Chinese SimpleQA检验幻觉问题,但MLLM在此类benchmark中有缺失,因此作者提出了Simple VQA。
数据集特点
https://rte.weiyun.baidu.com/wiki/attach/image/api/imageDownloadAddress?attachId=9b8e4d6449c8464dbdd83c79bb85412e&docGuid=EW7wehhLgr15KP
数据集基本信息:
https://rte.weiyun.baidu.com/wiki/attach/image/api/imageDownloadAddress?attachId=c6de66b42ef4482cb85e8b32fc7e788f&docGuid=EW7wehhLgr15KP
该数据集旨在评估模型的两个特性:
[*]视觉理解能力:指模型能否准确识别出图像中被提问的主体
[*]真实世界知识掌握能力:测试模型在识别出主体后,是否已经掌握了与之相关的现实世界知识,从而能正确回答问题
为完成该任务,SimpleVQA的每条数据包括两个问题:
[*]Atomic_question:用于评判MLLM是否能识别出实体
[*]Question:用于评判MLLM是否具备基础知识
数据样例:
数据文件
{
"data_id": 0,
"image": "CCSimpleQA/0.jpg",
"image_description": "",
"language": "CN",
"question": "图中所示穴位所属的经脉是什么?",
"answer": "足阳明胃经",
"original_category": "中华文化_中医",
"source": "https://baike.baidu.com/item/%E4%BC%8F%E5%85%94%E7%A9%B4/3503684#:~:text\\u003d%E4%BA%BA%E4%BD%93%E7%A9%B4%E4%BD%8D%E5%90%8D%E4%BC%8F%E5%85%94%E7%A9%B4F%C3%BA%20t%C3%B9%EF%BC%88ST32%EF%BC%89%E5%B1%9E%E8%B6%B3%E9%98%B3%E6%98%8E%E8%83%83%E7%BB%8F%E3%80%82%E5%9C%A8%E5%A4%A7%E8%85%BF%E5%89%8D%E9%9D%A2%EF%BC%8C%E5%BD%93%E9%AB%82%E5%89%8D%E4%B8%8A%E6%A3%98%E4%B8%8E%E9%AB%8C%E9%AA%A8%E5%A4%96%E4%BE%A7%E7%AB%AF%E7%9A%84%E8%BF%9E%E7%BA%BF%E4%B8%8A%EF%BC%8C%E9%AB%8C%E9%AA%A8%E4%B8%8A%E7%BC%98%E4%B8%8A6%E5%AF%B8%E3%80%82%E4%BC%8F%E5%85%94%E5%88%AB%E5%90%8D%E5%A4%96%E4%B8%98%E3%80%81%E5%A4%96%E5%8B%BE%EF%BC%8C%E4%BD%8D%E4%BA%8E%E5%A4%A7",
"atomic_question": "图中所示穴位的名称是什么?",
"atomic_fact": "伏兔",
"vqa_category": {
"task_category_analysis": "图像中的科学、逻辑和医学内容识别,问题询问穴位所属的经脉,需要中医经络学知识,涉及医学影像分析能力。",
"task_category": "图像中的科学、逻辑和医学内容识别",
"subject_category_analysis": "",
"subject_category": "文学、教育和体育",
"entity_class_analysis": "",
"entity_class": "人体"
}
}图片
https://rte.weiyun.baidu.com/wiki/attach/image/api/imageDownloadAddress?attachId=7aaba4aeaedc42b49dc7cd68e908553a&docGuid=EW7wehhLgr15KP
该数据集特点:
[*]中英双语言数据集
[*]多任务覆盖:
[*]覆盖16种不同形式的VQA任务
[*]覆盖4种不同形式的问答方式
[*]多领域覆盖:
[*]9个不同的任务:
[*]逻辑与科学 (Logic & Science, LS)
[*]目标识别与认知 (Object Identification Recognition, OIR)
[*]时间与事件 (Time & Event, TE)
[*]人物与情感 (Person & Emotion, PE)
[*]地点与建筑 (Location & Building, LB)
[*]文本处理 (Text Processing, TP)
[*]数量与位置关系 (Quantity & Position Relationship, QPR)
[*]艺术与文化 (Art & Culture, AC)
[*]目标属性识别 (Object Attributes Recognition, OAR)
[*]9种不同的领域:
[*]文学、教育与体育 (Literature, education & sports, LES)
[*]欧美历史与文化 (Euro-American History & Culture, EHC)
[*]当代社会 (Contemporary Society, CS)
[*]工程、技术与应用 (Engineering, Technology & Application, ETA)
[*]电影、电视与媒体 (Film, Television & Media, FTM)
[*]自然科学 (Natural Science, NS)
[*]艺术 (Art, AR)
[*]中国历史与文化 (Chinese History & Culture, CHC)
[*]生活 (Life, LI)
[*]高质量:通过综合且严谨的质量把控,确保benchmark的高质量
[*]挑战:专注于主流模型无法回答且无法追溯错误的问题
[*]答案稳定:答案不会随着时间等因素而改变,是静态的benchmark
[*]评估简单:答案简单,可以轻易通过judger进行判断。
构造benchmark流程
https://rte.weiyun.baidu.com/wiki/attach/image/api/imageDownloadAddress?attachId=36f46c0d8303471d8e7740c92f33b949&docGuid=EW7wehhLgr15KP
[*]数据抽取和过滤,SimpleVQA的数据来自两部分:
https://rte.weiyun.baidu.com/wiki/attach/image/api/imageDownloadAddress?attachId=476cb1858e3a491690f1f956d815cf18&docGuid=EW7wehhLgr15KP
[*]优秀的VQA数据集抽样,主要包括:
1. 英文数据集:MMVet、MME、Dynamath
2. 中文数据集:MMbench_CN、CCBench。
3. 选择这些数据集是因为它们构建时间较晚(2023 年以后),且与现实世界的应用高度相关
[*]搜索引擎与权威百科平台: 专家标注者通过以下平台收集图像及相关的现实世界事实知识:
[*]搜索引擎:Google、Baidu。
[*]知识库/百科:Wikipedia、百度百科。 这些数据侧重于各个领域的实体和事件,确保答案是客观、基于事实且可验证的
[*]数据增强和QA对生成:利用GPT-4o对于数据来源信息进行重写
[*]LLM校验:通过LLM以及严格的规范进行校验。具体标准详看论文2.2节
[*]人工校验:两位专业的标注者对LLM校验结果进行检查和微调,校验规则详见论文2.4节
[*]难度过滤:使用4个模型(GPT-4o, GPT-4o-mini, Doubao-vision-pro和ERNIE-VL)回答所有问题,去掉4个模型全部回答对的问题。
[*]原子问题生成:通过GPT-4o生成为每个案例生成原子问题,并由人工check。
执行与分析
4.1 Metric介绍
指标名称缩写定义与判定准则正确率CO预测答案与参考答案语义匹配,且无矛盾。该指标关注的是语义内容。只要预测答案包含了标准答案中的重要信息,且没有矛盾内容,即使在语言、大小写、标点、语法或顺序上存在差异,也会被判定为“正确”算法:正确回答的数量 / 总题目数未尝试率NA模型明确表示不知道或不尝试回答。如果模型回答“我不知道”、“我需要更多上下文”或“在不联网的情况下我无法回答”,则会被归为此类4。这种指标有助于衡量模型对于自身知识边界的认知。错误率IN预测答案与参考答案存在事实性矛盾。即使模型在回答时带有保留语气(例如使用“可能”、“虽然我不确定,但我认为”),只要其包含的客观事实陈述与标准答案冲突,就会被判定为“错误”尝试正确率CGA衡量在模型真正尝试回答的题目中,正确答案所占的比例这一指标反映了模型在“选择参与”时的性能表现,剔除了模型因诚实承认“不知道”而对准确率产生的影响。算法:正确回答的数量 / (总题目数 - 未尝试NA的数量)F-scoreF-scoreCO 与 CGA 的调和平均数,综合反映准确性与尝试成功率。它提供了一个平衡的评估视角,将整体准确性与模型尝试回答的成功率结合起来,是 SimpleVQA 性能排行榜中最重要的综合参考指标评估方式:judger评估,judger为GPT-4o
评判Prompt详见论文最后3页。
4.2 统计分析
论文评估了多个开源模型和闭源模型主要包括:GPT-4o, GPT-4o-mini, Doubao-pro-128k, Doubaopro-32k, Gemini-2.0-flash, Claude-3.5-Sonnet, Qwen-Max, ERNIE-VL,InternLM2.5, Qwen2.5, Qwen2, Janus-pro-7B并进行了如下几方面分析。
4.2.1 任务分析
https://rte.weiyun.baidu.com/wiki/attach/image/api/imageDownloadAddress?attachId=faf7588d9c5641c7a44a285b818d15b2&docGuid=EW7wehhLgr15KP
https://rte.weiyun.baidu.com/wiki/attach/image/api/imageDownloadAddress?attachId=8e44ae727a2f434fba44baee5a0cd216&docGuid=EW7wehhLgr15KP
4.2.2 领域分析
https://rte.weiyun.baidu.com/wiki/attach/image/api/imageDownloadAddress?attachId=f348d8d231ab4744917579dc440a8c5f&docGuid=EW7wehhLgr15KP
4.2.3 CFQ试验分析
CFQ 试验(全称 Complex Fact Question,复杂事实问题试验)是 SimpleVQA 评估框架中用于深入进行因果分析(Causal Analysis)的核心环节
。它的主要目的是通过对比实验,精确诊断多模态大语言模型(MLLM)在处理事实性问题时,错误究竟是源于“看不懂图”(视觉理解不足)还是“没记住知识”(知识储备短缺)。
CFQ 试验的具体细节:
https://rte.weiyun.baidu.com/wiki/attach/image/api/imageDownloadAddress?attachId=f2ff85d699844ff597c06670850a023d&docGuid=EW7wehhLgr15KP
[*]数据集构成:研究团队从 SimpleVQA 的 2,025 个样本中,筛选出了 569 个原子问题与原问题不一致的高难度样本,组成了 CFQ 测试集
[*]三阶段对比实验设计,在 CFQ 试验中,模型需要经历三个阶段的测试,通过准确率(CO)的变化来定位问题:
[*]Origin(原始阶段):直接让模型回答原问题(例如:“图中这个人是哪年出生的?”)。
[*]Atomic(原子阶段):只让模型回答原子问题,测试其基础识别能力(例如:“图中这个人是谁?”)。
[*]Atomic-Given(给定原子事实阶段):将原子问题的正确答案作为提示(Hint)提供给模型,再让它回答原问题。如果模型在这一阶段表现大幅提升,说明它其实“脑子里有知识”,只是刚才“眼睛没看准”;如果依然答错,则说明它确实缺乏相关的背景知识。
试验的核心发现:
https://rte.weiyun.baidu.com/wiki/attach/image/api/imageDownloadAddress?attachId=15169f3d1ddd4c6da260f6b4b3e5fd39&docGuid=EW7wehhLgr15KP
[*]视觉识别是瓶颈:许多模型(如 InternVL2.5-78B-MPO)在给定原子事实后(Atomic-Given),准确率从 55.36% 大幅提升至 69.95%,证明视觉理解不足是制约模型事实性表现的主要原因。
[*]知识储备仍有空间:即使在告知了图中主体是谁的情况下,模型仍有相当比例的题目答错,这反映出 MLLM 在内化海量世界知识方面仍有待加强。
[*]纯文本模型的局限:对于 o1-preview 等纯文本模型,即使给出了原子事实,由于缺乏图像输入提供的上下文,其知识内化能力也无法被有效激发
总结: CFQ 试验不仅是衡量模型“有多强”,更是为了拆解模型“弱在哪里”,为后续通过指令微调(SFT)等手段优化模型提供了明确的科学依据。
4.2.4 自置信度统计
https://rte.weiyun.baidu.com/wiki/attach/image/api/imageDownloadAddress?attachId=11641378644e4a728ef81a268a4fc8f9&docGuid=EW7wehhLgr15KP
该工作通过让大模型在回答中返回对回复的置信度来评估大模型对答案的信心和实际参考答案是否一致。结果显示参数量越大的模型,其提供的置信度的可信度更高;虽然置信度越高的回答准确性越强,但存在大量高置信度的回答错误,这就说明大模型仍然对于自己的只是存储和理解能力过于自信。
结论总结
[*]在 VQA 领域中大多数评估模型的事实准确性不足;
[*]MLLM 的训练数据可能包含知识错误,并且它们对生成的回答过度自信;
[*]图像内容理解仍然是 MLLMs 获得性能提高的主要挑战;
[*]提高模型的视觉理解能力并增强模型的知识内化可以大大提高模型的整体准确性,例如通过监督的微调(SFT);
[*]MLLMs、LLMs 内化大量世界知识的能力仍然需要改善,而克服幻觉仍然是大型语言模型的巨大挑战。
引用
[*]https://arxiv.org/pdf/2502.13059
[*]https://zhuanlan.zhihu.com/p/27346280039
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作! 收藏一下 不知道什么时候能用到 谢谢分享,试用一下
页:
[1]