kylearn
训练与微调

人类反馈强化学习

RLHF

让人给 AI 的多个回答打分排名,AI 照着'人更喜欢哪个'反复改,像教练带着运动员一遍遍纠正动作。

先打个比方

想象你新招了一个实习生,脑子很灵、读过海量资料,但完全不懂"看人下菜碟"。你问他问题,他会噼里啪啦说一大堆,有时跑题,有时绕圈子,有时还一本正经胡说八道。怎么把他调教成一个靠谱助手?

办法很朴素:让他对同一个问题给出好几版回答,你从中挑出最顺眼的那个,告诉他"这个好,那个差"。挑得多了,他慢慢摸清你喜欢什么调性,下次就直接往你心坎上说。

它到底是什么

RLHF(人类反馈强化学习)干的就是这件事。AI 对一个问题先生成多个答案,请真人给它们打分、排好坏次序;这些偏好被攒成一个"评委模型"(一个专门给回答打分的小程序),然后 AI 拿这个分数当指挥棒,朝着"人更喜欢的方向"反复调整自己。

简单说:人定标准,AI 照着人的口味一遍遍改。它学的不是"标准答案",而是"怎么说话人才爱听、才觉得有用"。

为什么和你有关

没有这一步,AI 只会"续写"——给个开头它接着往下编,像个只会背书的机器。正是 RLHF 这道工序,把它从"会说"变成了"会好好回答你":听懂人话、不轻易跑偏、该拒绝时拒绝。

你今天觉得它"挺懂事、挺好用",背后多半就有无数次人类打分在悄悄塑形 😊。

下次它答得特别合你意,别只夸它聪明——记住,是有人替你"教"过它该怎么说话。

本文为 AI 整理的科普解读,可能有误,仅供入门参考。

没看懂?让 AI 再讲一遍:

延伸阅读:可在公众号「数字生命卡兹克」「Datawhale」搜同名概念的科普文章。

相关概念