找回密码
 立即注册
首页 业界区 业界 论文解读:One-shot Entropy Minimization

论文解读:One-shot Entropy Minimization

黎瑞芝 昨天 05:10
一篇还未发表的论文,但做了大量实验对熵最小化技巧提升模型推理能力进行了探索。本文训练了13440个大型语言模型,发现熵最小化(EM)只需要一个未标记的数据和10步优化,性能提升就比RL还强。基于两个直接而简单的假设:

  • 生成大型语言模型的采样过程本质上是随机的。
  • 正确答案的熵通常低于错误答案。
EM和RL有共同目标:在不添加新知识的情况下释放预训练模型的潜在潜力,都依赖于所谓“token重评级”。
原文网址:https://arxiv.org/abs/2505.20282v4
方法

给定prompt $x$,生成序列$y$,最小化生成序列token级别的预测熵:
$\displaystyle L_{\mathrm{EM}} = \frac{1}{|y|} \sum_{t = 1}^{|y|} H_t  $

$\displaystyle H_t = -\sum_{v \in V} p_\theta(v \mid y_{

相关推荐

您需要登录后才可以回帖 登录 | 立即注册