在早期时,我曾让大模型撰写一位冷门历史人物的传记。它胸有成竹,娓娓道来:年代、成就,甚至几句“名言”,一应俱全。读起来简直像历史上真的存在一样。
唯一的问题是:大部分内容都不是真的。严格来说,模型并非“撒谎”,而是在知识缺口处用看似合理的细节把空白填满。它是出色的故事编辑者,却是离谱的历史学家。
这种问题在 AI 领域叫做"幻觉"(就像人会产生错觉一样),是目前提升 AI 可靠性路上最难啃的硬骨头之一。我们理想中的 AI 应该像万能百科一样无所不知,但更重要的是,它必须清楚地知道自己"不知道什么",不能不懂装懂。
让模型在不确定时也“必须给答案”,本质上是在制造错误信息。这引出一个根本性的张力:如何训练模型既准确,又不把它无意间训练成一个“一本正经的胡说八道”?
Meta AI (Facebook)与弗吉尼亚大学的研究者在一篇新论文中提出了一个优雅而有前景的思路:TruthRL。它是一个强化学习框架,不只追求答对,还通过奖励机制培育一种“数字谦逊”——当模型不确定时,能够识别不确定性并选择暂缓作答或明确表示“不知道”。
这项研究不是给模型“修修补补”,而是重新塑造其内在激励结构,指向一种更理想的未来:AI 不仅更有学识,而且从根本上更值得信任。
论文全文见:《TruthRL: Incentivizing Truthful LLMs via Reinforcement Learning》 AI 训练的悖论:光靠“答对”还不够
要理解 TruthRL 为何是一项重要突破,先得搞清楚我们在训练大型语言模型(LLM)时,遇到的一个微妙问题——它们学得太乖,却不一定学得真。
训练 AI 有两种常见方式,就像教厨师做菜: 监督微调(SFT) 像是给学徒一本厚厚的食谱。
传统的 AI 奖惩系统通常采用非黑即白的二元反馈(正确 vs 错误),而TruthRL 则引入了一套更精细的“三档奖惩机制”,类似于交通信号灯,为 AI 的回答划分出三种明确的评价标准:
<ul><strong>
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!