蒸馏
Distillation
让一个又大又贵的'老师 AI'把本事教给一个又小又便宜的'学生 AI',学生体型小却学到八九成功力。
先打个比方
想象一位经验丰富的老教授,脑子里装着几十年的学问,但请他出场一次特别贵,还得专门腾出一间大办公室。蒸馏干的事,就是让这位老教授带一个聪明的实习生:老教授不停做题、讲解,实习生在旁边一道道学,把老师的判断和思路慢慢"抄"进自己脑子。学成之后,实习生一个人就能上岗,又快又省。
在 AI 里,这位"老教授"是一个又大又强、但运行起来很烧钱的大模型;"实习生"是一个小很多的模型。让大模型当老师、小模型当学生,把本事传过去,这个过程就叫蒸馏。
它到底在传什么
它传的不只是"标准答案",更是老师做判断时那种"七分像、三分不太确定"的微妙感觉。学生模型照着老师的反应一点点模仿,最后能用很小的身板,做出接近老师水平的活儿。📚
为什么和你有关
你手机里那些不联网也能用、反应还挺快的 AI 功能,很多就是这么"教"出来的小模型。大模型太重,塞不进手机;蒸馏出来的小模型轻巧省电,才跑得动。这也解释了一个趋势:AI 为什么越做越便宜、越来越多地能装进你身边的设备。
下次看到某个 AI 又小又快还不要钱,别急着惊讶——它背后多半站着一位"老教授",早就把家底教给它了。
本文为 AI 整理的科普解读,可能有误,仅供入门参考。
没看懂?让 AI 再讲一遍:
延伸阅读:可在公众号「数字生命卡兹克」「Datawhale」搜同名概念的科普文章。