论文解读:One-shot Entropy Minimization
一篇还未发表的论文,但做了大量实验对熵最小化技巧提升模型推理能力进行了探索。本文训练了13440个大型语言模型,发现熵最小化(EM)只需要一个未标记的数据和10步优化,性能提升就比RL还强。基于两个直接而简单的假设:[*]生成大型语言模型的采样过程本质上是随机的。
[*]正确答案的熵通常低于错误答案。
EM和RL有共同目标:在不添加新知识的情况下释放预训练模型的潜在潜力,都依赖于所谓“token重评级”。
原文网址:https://arxiv.org/abs/2505.20282v4
方法
给定prompt $x$,生成序列$y$,最小化生成序列token级别的预测熵:
$\displaystyle L_{\mathrm{EM}} = \frac{1}{|y|} \sum_{t = 1}^{|y|} H_t $
$\displaystyle H_t = -\sum_{v \in V} p_\theta(v \mid y_{ 感谢分享,下载保存了,貌似很强大 东西不错很实用谢谢分享 喜欢鼓捣这些软件,现在用得少,谢谢分享! 感谢分享,下载保存了,貌似很强大 谢谢楼主提供! 分享、互助 让互联网精神温暖你我 这个有用。 热心回复! 很好很强大我过来先占个楼 待编辑 感谢分享,学习下。 这个好,看起来很实用 这个好,看起来很实用 yyds。多谢分享 感谢发布原创作品,程序园因你更精彩 分享、互助 让互联网精神温暖你我 这个好,看起来很实用 感谢发布原创作品,程序园因你更精彩 感谢分享,学习下。 这个有用。
页:
[1]
2