找回密码
 立即注册
首页 业界区 安全 AI训练的悖论:为什么越追求准确率越会产生幻觉? ...

AI训练的悖论:为什么越追求准确率越会产生幻觉?

习和璧 5 天前
在早期时,我曾让大模型撰写一位冷门历史人物的传记。它胸有成竹,娓娓道来:年代、成就,甚至几句“名言”,一应俱全。读起来简直像历史上真的存在一样。
唯一的问题是:大部分内容都不是真的。严格来说,模型并非“撒谎”,而是在知识缺口处用看似合理的细节把空白填满。它是出色的故事编辑者,却是离谱的历史学家。
这种问题在 AI 领域叫做"幻觉"(就像人会产生错觉一样),是目前提升 AI 可靠性路上最难啃的硬骨头之一。我们理想中的 AI 应该像万能百科一样无所不知,但更重要的是,它必须清楚地知道自己"不知道什么",不能不懂装懂。
让模型在不确定时也“必须给答案”,本质上是在制造错误信息。这引出一个根本性的张力:如何训练模型既准确,又不把它无意间训练成一个“一本正经的胡说八道”?
Meta AI (Facebook)与弗吉尼亚大学的研究者在一篇新论文中提出了一个优雅而有前景的思路:TruthRL。它是一个强化学习框架,不只追求答对,还通过奖励机制培育一种“数字谦逊”——当模型不确定时,能够识别不确定性并选择暂缓作答或明确表示“不知道”。
这项研究不是给模型“修修补补”,而是重新塑造其内在激励结构,指向一种更理想的未来:AI 不仅更有学识,而且从根本上更值得信任。
论文全文见:《TruthRL: Incentivizing Truthful LLMs via Reinforcement Learning》
AI 训练的悖论:光靠“答对”还不够

要理解 TruthRL 为何是一项重要突破,先得搞清楚我们在训练大型语言模型(LLM)时,遇到的一个微妙问题——它们学得太乖,却不一定学得真。
训练 AI 有两种常见方式,就像教厨师做菜:
监督微调(SFT) 像是给学徒一本厚厚的食谱。

  • “照着步骤做就行。”
  • 他能完美复刻每一道菜,但如果你让他即兴发挥、换种食材——糟糕,他可能立刻犯错。
  • 这种厨师擅长​模仿​,但不一定理解背后的原理。
基于人类反馈的强化学习(RLHF) 就像是你变成一位美食评论家。

  • 学徒每做一道菜,你试吃后点评:“这道好吃”“那道不太行”。
  • 久而久之,学徒就摸清了你的口味,越做越“讨你喜欢”。
但问题出现了——“只要让顾客满意”不等于“真好吃”

因为美食评论家(也就是人类评估者)往往喜欢一个听起来“像样”的答案,而不是一句“我不知道”。 结果,AI 学会了:即使不确定,也要说点听起来合理的东西。
换句话说,它更想​让人满意​,而不是​确保自己说的是实话​。
这就是训练中的“悖论”:

  • 奖励机制让模型更聪明地迎合人,
  • 却可能让它离“真实”越来越远。
TruthRL:教 AI 不只是“聪明”,还要“诚实”

TruthRL 想解决的,就是这个“说好听话”的陷阱。
它的目标是:

  • 让模型在得到奖励时,不仅因为“让人满意”,
  • 还因为“确实说对了,或者诚实地承认不知道”。
简单一句话总结就是:SFT 教 AI 模仿,RLHF 教它讨好,而 TruthRL 教它诚实。
1.png

这就引出了最核心的问题:如果模型只有“答对”才能拿到奖励,它就永远学不会“承认自己可能错了”这件事有多重要。TruthRL 的做法很简单,却一语中的:让模型明白,诚实地说“我不确定”也能得分。
2.png

TruthRL:更聪明的三档奖惩机制

传统的 AI 奖惩系统通常采用​非黑即白的二元反馈​(正确 vs 错误),而​TruthRL 则引入了一套更精细的“三档奖惩机制”​,类似于交通信号灯,为 AI 的回答划分出三种明确的评价标准:
<ul>​<strong>
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!

相关推荐

您需要登录后才可以回帖 登录 | 立即注册