训练与微调

蒸馏

Distillation

让一个又大又贵的'老师 AI'把本事教给一个又小又便宜的'学生 AI'，学生体型小却学到八九成功力。

先打个比方

想象一位经验丰富的老教授，脑子里装着几十年的学问，但请他出场一次特别贵，还得专门腾出一间大办公室。蒸馏干的事，就是让这位老教授带一个聪明的实习生：老教授不停做题、讲解，实习生在旁边一道道学，把老师的判断和思路慢慢"抄"进自己脑子。学成之后，实习生一个人就能上岗，又快又省。

在 AI 里，这位"老教授"是一个又大又强、但运行起来很烧钱的大模型；"实习生"是一个小很多的模型。让大模型当老师、小模型当学生，把本事传过去，这个过程就叫蒸馏。

它传的不只是"标准答案"，更是老师做判断时那种"七分像、三分不太确定"的微妙感觉。学生模型照着老师的反应一点点模仿，最后能用很小的身板，做出接近老师水平的活儿。📚

你手机里那些不联网也能用、反应还挺快的 AI 功能，很多就是这么"教"出来的小模型。大模型太重，塞不进手机；蒸馏出来的小模型轻巧省电，才跑得动。这也解释了一个趋势：AI 为什么越做越便宜、越来越多地能装进你身边的设备。

下次看到某个 AI 又小又快还不要钱，别急着惊讶——它背后多半站着一位"老教授"，早就把家底教给它了。

本文为 AI 整理的科普解读，可能有误，仅供入门参考。

没看懂？让 AI 再讲一遍：

延伸阅读：可在公众号「数字生命卡兹克」「Datawhale」搜同名概念的科普文章。