训练与微调

人类反馈强化学习

RLHF

让人给 AI 的多个回答打分排名，AI 照着'人更喜欢哪个'反复改，像教练带着运动员一遍遍纠正动作。

先打个比方

想象你新招了一个实习生，脑子很灵、读过海量资料，但完全不懂"看人下菜碟"。你问他问题，他会噼里啪啦说一大堆，有时跑题，有时绕圈子，有时还一本正经胡说八道。怎么把他调教成一个靠谱助手？

办法很朴素：让他对同一个问题给出好几版回答，你从中挑出最顺眼的那个，告诉他"这个好，那个差"。挑得多了，他慢慢摸清你喜欢什么调性，下次就直接往你心坎上说。

RLHF（人类反馈强化学习）干的就是这件事。AI 对一个问题先生成多个答案，请真人给它们打分、排好坏次序；这些偏好被攒成一个"评委模型"（一个专门给回答打分的小程序），然后 AI 拿这个分数当指挥棒，朝着"人更喜欢的方向"反复调整自己。

简单说：人定标准，AI 照着人的口味一遍遍改。它学的不是"标准答案"，而是"怎么说话人才爱听、才觉得有用"。

没有这一步，AI 只会"续写"——给个开头它接着往下编，像个只会背书的机器。正是 RLHF 这道工序，把它从"会说"变成了"会好好回答你"：听懂人话、不轻易跑偏、该拒绝时拒绝。

你今天觉得它"挺懂事、挺好用"，背后多半就有无数次人类打分在悄悄塑形 😊。

下次它答得特别合你意，别只夸它聪明——记住，是有人替你"教"过它该怎么说话。

本文为 AI 整理的科普解读，可能有误，仅供入门参考。

没看懂？让 AI 再讲一遍：

延伸阅读：可在公众号「数字生命卡兹克」「Datawhale」搜同名概念的科普文章。