大模型基础

混合专家模型

Mixture of Experts (MoE)

模型内部养了一群'各管一摊的专家'，来活儿时只叫醒最对口的几位干活，而不是全员上阵，省力又快。

先打个比方

想象一家超大型医院，里面坐着上百位专科医生：心脏的、肠胃的、皮肤的、骨科的……你挂号进来说"嗓子疼"，前台不会把全院医生都叫起来围着你会诊，只会喊来耳鼻喉科那一两位。其他医生该喝茶喝茶，该睡觉睡觉。

混合专家模型（MoE）就是这么干的。它内部不是一个"全能大脑"，而是养了一大群各有所长的"专家"。每次你提问，模型先派一个"前台"（专业叫法是"门控网络"，就是个负责分诊的小程序）判断这活儿该找谁，然后只叫醒最对口的几位专家来回答。

传统大模型像一个累死累活的全科医生，啥问题都得自己从头想一遍，又慢又费电。MoE 则把本事拆给一群专家，平时大家都"挂着"，但每次只上岗一小撮。

所以它有个很爽的特点：肚子里装的知识可以非常非常多（专家多嘛），但每次干活只动用其中一小部分，跑起来反而又快又省。这就是"参数巨大却跑得起、还便宜"的秘密——不是它变笨了，是它学会了"不养闲人、按需上岗"。

你平时用的那些聪明又便宜、回答还飞快的国产大模型，背后很多就靠这套思路撑着。没有它，要么贵到你用不起，要么慢到你等不及。

下次再听到某个模型"参数多到吓人却还那么便宜"，你心里就有数了：大概率，它在偷偷"分诊" 🩺。

本文为 AI 整理的科普解读，可能有误，仅供入门参考。

没看懂？让 AI 再讲一遍：

延伸阅读：可在公众号「数字生命卡兹克」「Datawhale」搜同名概念的科普文章。