登录
/
注册
首页
论坛
其它
首页
科技
业界
安全
程序
广播
Follow
关于
导读
排行榜
资讯
发帖说明
登录
/
注册
账号
自动登录
找回密码
密码
登录
立即注册
搜索
搜索
关闭
CSDN热搜
程序园
精品问答
技术交流
资源下载
本版
帖子
用户
软件
问答
教程
代码
写记录
写博客
小组
VIP申请
VIP网盘
网盘
联系我们
发帖说明
道具
勋章
任务
淘帖
动态
分享
留言板
导读
设置
我的收藏
退出
腾讯QQ
微信登录
1
2
/ 2 页
下一页
返回列表
首页
›
业界区
›
业界
›
LLM | ARC-AGI:有趣的 benchmark
LLM | ARC-AGI:有趣的 benchmark
[ 复制链接 ]
锄淫鲷
2026-1-7 21:30:01
程序园永久vip申请,无限下载程序园所有程序/软件/数据/等
ARC-AGI benchmark 提供了基于视觉网格的谜题,这些谜题是“对于人类简单、对于大模型困难”的问题。ARC-AGI 通过评测大模型解决这类问题的能力,来衡量大模型距通用智能的距离。
每个谜题仅提供少量示例,大模型需要基于这些示例,通过抽象推理,理解谜题的含义。(另一方面,示例较少也意味着训练数据集较少,即,ARC-AGI benchmark 不容易通过专门训练来刷点。)该 benchmark 测试模型识别 pattern 并将其快速应用于新情况的能力。
ARC-AGI 的主要评估指标是 Pass@2,它衡量模型在两次尝试内生成正确输出的能力。
示例:
(ARC-AGI-1)
(ARC-AGI-2)
如何解决 ARC-AGI 问题?ARC-AGI 团队在 Kaggle 上发布了相关竞赛,然而,由于训练数据过少,无法训出一个用于解决 ARC-AGI 问题的模型(这个思想也与考察模型通用推理能力的初衷相悖),因此在 2024 年 GPT 等模型兴起之前,基于深度学习的方法并未取得好的结果。
根据 ARC Prize 2024: Technical Report,在 2024 年度,ARC-AGI 的求解取得突破,主要使用了以下三种方法:
深度学习引导的程序合成:利用深度学习模型,特别是专门的代码 LLMs,来生成解决任务的程序,或对搜索程序的过程进行指导。
直推模型(transductive models)在测试时训练(test-time training,TTT):在给定的 ARC-AGI 任务规范上对 LLM 进行微调,以便将 LLM 的先验知识重新组合成一个新的模型,适应当前的任务。直推模型指的是,接收输入后直接输出结果,而非输出一个程序。
将程序合成与直推模型相结合:将上述两种方法合并为一个超级方法,因为据观察,这两种方法擅长解决不同类型的任务。
ARC-AGI 任务的官网:https://arcprize.org/
ARC-AGI-1/2/3 :
https://arcprize.org/arc-agi/1/
https://arcprize.org/arc-agi/2/
https://arcprize.org/arc-agi/3/
ARC-AGI-1/2 的榜单:https://arcprize.org/leaderboard
ARC Prize 2024: Technical Report:https://arxiv.org/html/2412.04604v1
相关博客:
像 AI 写的神秘博客:https://labs.adaline.ai/p/what-is-the-arc-agi-benchmark-and
知乎 · 机器之心 |「压缩即智能」得到实验验证,无需预训练和大量数据就能解决 ARC-AGI 问题:https://zhuanlan.zhihu.com/p/30426666081
知乎 | ARC-AGI 测试集对人工智能来说难在哪里?https://www.zhihu.com/question/7955529556/answer/65269819236
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
LLM
ARC
AGI
有趣
benchmark
相关帖子
C#LLM[0]:从零开始训练轻量级语言模型-MiniLM
AGI-Next前沿峰会「沉思报告」——中国AGI背后的产业逻辑与战略分野
收藏!LLM-RL训练框架:3大流派+6大框架,一文搞定
AI 学习笔记:LLM 的部署与测试
2026年的17个LLM应用场景
LLM应用测试,终于有了趁手武器?深度评测Product Hunt爆火的LLM Testing Tool
AI技术和大模型技术LLM
LLM 算法岗 | 八股问答(2)· 大模型训练流程与微调技术
PII与LLM隐私保护实战指南
LLM 算法岗 | 八股问答(3)· 强化学习与 RLHF
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
照妖镜
相关推荐
业界
C#LLM[0]:从零开始训练轻量级语言模型-MiniLM
31
791
骛扼铮
2026-01-10
业界
AGI-Next前沿峰会「沉思报告」——中国AGI背后的产业逻辑与战略分野
18
636
艾晓梅
2026-01-13
业界
收藏!LLM-RL训练框架:3大流派+6大框架,一文搞定
19
138
卒挪
2026-01-20
业界
AI 学习笔记:LLM 的部署与测试
8
705
戎玉珂
2026-02-07
科技
2026年的17个LLM应用场景
10
451
琦谓
2026-02-22
科技
LLM应用测试,终于有了趁手武器?深度评测Product Hunt爆火的LLM Testing Tool
4
1218
湛恶
2026-02-24
安全
AI技术和大模型技术LLM
0
656
稼布欤
2026-03-08
安全
LLM 算法岗 | 八股问答(2)· 大模型训练流程与微调技术
0
43
乱蚣
2026-03-12
业界
PII与LLM隐私保护实战指南
0
247
嘀荼酴
2026-03-18
业界
LLM 算法岗 | 八股问答(3)· 强化学习与 RLHF
0
838
乙荒
2026-03-21
回复
(29)
娥搽裙
2026-1-14 11:53:11
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
不错,里面软件多更新就更好了
祖柔惠
2026-1-18 20:01:53
回复
使用道具
举报
照妖镜
程序园永久vip申请,无限下载程序园所有程序/软件/数据/等
分享、互助 让互联网精神温暖你我
俏挺喳
2026-1-19 02:22:31
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
过来提前占个楼
讣丢
2026-1-20 09:20:56
回复
使用道具
举报
照妖镜
程序园永久vip申请,无限下载程序园所有程序/软件/数据/等
鼓励转贴优秀软件安全工具和文档!
零幸
2026-1-25 22:18:55
回复
使用道具
举报
照妖镜
程序园永久vip申请,无限下载程序园所有程序/软件/数据/等
过来提前占个楼
呶募妙
2026-1-26 10:40:29
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
谢谢分享,试用一下
梁宁
2026-1-27 04:54:40
回复
使用道具
举报
照妖镜
程序园永久vip申请,无限下载程序园所有程序/软件/数据/等
新版吗?好像是停更了吧。
吟氅
2026-1-28 04:05:46
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
分享、互助 让互联网精神温暖你我
琦谓
2026-1-28 06:21:04
回复
使用道具
举报
照妖镜
程序园永久vip申请,无限下载程序园所有程序/软件/数据/等
yyds。多谢分享
祉遛吾
2026-1-30 03:28:31
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
感谢分享,下载保存了,貌似很强大
醋辛
2026-2-3 06:40:55
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
这个有用。
肿圬后
2026-2-5 07:55:42
回复
使用道具
举报
照妖镜
程序园永久vip申请,无限下载程序园所有程序/软件/数据/等
喜欢鼓捣这些软件,现在用得少,谢谢分享!
裴涛
2026-2-7 05:05:22
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
过来提前占个楼
盗衍
2026-2-7 23:49:03
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
喜欢鼓捣这些软件,现在用得少,谢谢分享!
兜蛇
2026-2-8 10:38:38
回复
使用道具
举报
照妖镜
程序园永久vip申请,无限下载程序园所有程序/软件/数据/等
感谢分享,下载保存了,貌似很强大
博咱
2026-2-8 20:17:00
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
感谢,下载保存了
裆趾针
2026-2-9 01:27:47
回复
使用道具
举报
照妖镜
程序园永久vip申请,无限下载程序园所有程序/软件/数据/等
谢谢分享,试用一下
石娅凉
2026-2-10 08:12:31
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
感谢发布原创作品,程序园因你更精彩
颜才
2026-2-10 09:31:25
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
用心讨论,共获提升!
下一页 »
1
2
/ 2 页
下一页
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
回复
本版积分规则
回帖并转播
回帖后跳转到最后一页
浏览过的版块
安全
签约作者
程序园优秀签约作者
发帖
锄淫鲷
2026-2-10 09:31:25
关注
0
粉丝关注
25
主题发布
板块介绍填写区域,请于后台编辑
财富榜{圆}
3934307807
991125
anyue1937
9994892
kk14977
6845359
4
xiangqian
638210
5
神泱
9522
6
韶又彤
9916
7
宋子
9878
8
荪俗
9018
9
闰咄阅
9995
10
蓬森莉
9870
查看更多
今日好文热榜
804
Openclaw接入微信(亲测有效)
26
HagiCode Desktop 混合分发架构解析:如何
246
民间盲派秘传:十二时辰初中末出生吉凶(中
270
是谁 2026 年还在用 Sublime Text 写代码?
220
HagiCode Desktop 混合分发架构解析:如何
790
HagiCode Desktop 混合分发架构解析:如何
998
分布式自动化测试的大规模落地方案-宏控天
680
民间盲派秘传:十二时辰初中末出生吉凶(中
424
民间盲派秘传:十二时辰初中末出生吉凶(中
5
民间盲派秘传:十二时辰初中末出生吉凶(中
497
HagiCode Desktop 混合分发架构解析:如何
443
信息系统项目管理师 2025年上半年(第2批)
675
民间盲派秘传:十二时辰初中末出生吉凶(中
641
民间盲派秘传:十二时辰初中末出生吉凶(中
68
民间盲派秘传:十二时辰初中末出生吉凶(中
728
民间盲派秘传:十二时辰初中末出生吉凶(中
418
记一次综合型流量分析 | 添柴不加火
388
AI开发-python-langchain框架(3-14-并行流
862
WPF新手村教程(七)—— 终章(MVVM架构
296
38岁程序员的接单平台踩坑史:从被骗到月入