登录
/
注册
首页
论坛
其它
首页
科技
业界
安全
程序
广播
Follow
关于
导读
排行榜
资讯
发帖说明
登录
/
注册
账号
自动登录
找回密码
密码
登录
立即注册
搜索
搜索
关闭
CSDN热搜
程序园
精品问答
技术交流
资源下载
本版
帖子
用户
软件
问答
教程
代码
写记录
写博客
小组
VIP申请
VIP网盘
网盘
联系我们
发帖说明
道具
勋章
任务
淘帖
动态
分享
留言板
导读
设置
我的收藏
退出
腾讯QQ
微信登录
返回列表
首页
›
业界区
›
业界
›
论文解读:One-shot Entropy Minimization
论文解读:One-shot Entropy Minimization
[ 复制链接 ]
黎瑞芝
昨天 05:10
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
一篇还未发表的论文,但做了大量实验对熵最小化技巧提升模型推理能力进行了探索。本文训练了13440个大型语言模型,发现熵最小化(EM)只需要一个未标记的数据和10步优化,性能提升就比
RL
还强。基于两个直接而简单的假设:
生成大型语言模型的采样过程本质上是随机的。
正确答案的熵通常低于错误答案。
EM和RL有
共同目标
:在不添加新知识的情况下释放预训练模型的潜在潜力,都依赖于所谓“token重评级”。
原文网址:https://arxiv.org/abs/2505.20282v4
方法
给定prompt $x$,生成序列$y$,最小化生成序列token级别的预测熵:
$\displaystyle L_{\mathrm{EM}} = \frac{1}{|y|} \sum_{t = 1}^{|y|} H_t $
$\displaystyle H_t = -\sum_{v \in V} p_\theta(v \mid y_{
论文
解读
One
shot
Entropy
相关帖子
offline meta RL | 论文速读记录
揭秘!6款AI论文神器半天生成5000字问卷论文,真实参考文献内幕公开!
Nano Banana生成论文标注图片
Avalonia源码解读:Grid(网格控件)
论文速读记录 | 2025.12(2)
AI生成论文查重能过么?8款AI写论文软件测评,毕业论文查重率低至4%!
Geotransform代码解读
AI生成论文靠谱吗?精选9款AI写论文工具教程,支持一键生成功能!
CoT论文阅读笔记
AI论文生成神器怎么选?8款AI写论文工具指南,参考文献真实可靠!
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
照妖镜
相关推荐
业界
offline meta RL | 论文速读记录
1
169
宗和玉
2025-12-07
安全
揭秘!6款AI论文神器半天生成5000字问卷论文,真实参考文献内幕公开!
1
96
存叭
2025-12-08
科技
Nano Banana生成论文标注图片
2
122
磁呃泵
2025-12-09
业界
Avalonia源码解读:Grid(网格控件)
1
517
思矿戳
2025-12-17
业界
论文速读记录 | 2025.12(2)
2
602
纪音悦
2025-12-21
安全
AI生成论文查重能过么?8款AI写论文软件测评,毕业论文查重率低至4%!
0
197
何玲
2025-12-22
安全
Geotransform代码解读
1
352
懵诬哇
2025-12-22
安全
AI生成论文靠谱吗?精选9款AI写论文工具教程,支持一键生成功能!
0
176
仟仞
2025-12-22
业界
CoT论文阅读笔记
0
154
涣爹卮
2025-12-22
安全
AI论文生成神器怎么选?8款AI写论文工具指南,参考文献真实可靠!
0
331
剩鹄逅
2025-12-26
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
回复
本版积分规则
回帖并转播
回帖后跳转到最后一页
签约作者
程序园优秀签约作者
发帖
黎瑞芝
昨天 05:10
关注
0
粉丝关注
12
主题发布
板块介绍填写区域,请于后台编辑
财富榜{圆}
3934307807
991124
anyue1937
9994891
kk14977
6845358
4
xiangqian
638210
5
韶又彤
9994
6
宋子
9978
7
闰咄阅
9993
8
刎唇
9993
9
俞瑛瑶
9998
10
蓬森莉
9946
查看更多
今日好文热榜
1002
对线面试官系列:搞懂MySQL 回表机制,看这
473
轻量可定制!一款开源的 Windows 桌面硬件
533
解密Prompt系列67. 智能体的经济学:从架构
194
如何编写figma插件
808
2026年北京陪诊机构排行
837
Ruoyi框架 | 扩展部门数据权限实现
247
2025再见,码农当自强,47岁尚能饭否
166
在 Web 前端实现流式 TTS 播放
188
2025年终总结——在奔跑中前行
139
吴恩达深度学习课程四:计算机视觉 第四周
232
一个关于时间、节奏和前端动画的小实验:新
303
实用程序:解放双手!Python 打造 PDF 手写
220
Perigon.CLI 10.0 重磅发布【AspNetCore开
209
MongoDB 详解、应用场景及案例分析(AI)
395
RL 策略优化 (4.2章节)