kylearn
大模型基础

混合专家模型

Mixture of Experts (MoE)

模型内部养了一群'各管一摊的专家',来活儿时只叫醒最对口的几位干活,而不是全员上阵,省力又快。

先打个比方

想象一家超大型医院,里面坐着上百位专科医生:心脏的、肠胃的、皮肤的、骨科的……你挂号进来说"嗓子疼",前台不会把全院医生都叫起来围着你会诊,只会喊来耳鼻喉科那一两位。其他医生该喝茶喝茶,该睡觉睡觉。

混合专家模型(MoE)就是这么干的。它内部不是一个"全能大脑",而是养了一大群各有所长的"专家"。每次你提问,模型先派一个"前台"(专业叫法是"门控网络",就是个负责分诊的小程序)判断这活儿该找谁,然后只叫醒最对口的几位专家来回答。

它到底是什么

传统大模型像一个累死累活的全科医生,啥问题都得自己从头想一遍,又慢又费电。MoE 则把本事拆给一群专家,平时大家都"挂着",但每次只上岗一小撮。

所以它有个很爽的特点:肚子里装的知识可以非常非常多(专家多嘛),但每次干活只动用其中一小部分,跑起来反而又快又省。这就是"参数巨大却跑得起、还便宜"的秘密——不是它变笨了,是它学会了"不养闲人、按需上岗"。

为什么和你有关

你平时用的那些聪明又便宜、回答还飞快的国产大模型,背后很多就靠这套思路撑着。没有它,要么贵到你用不起,要么慢到你等不及。

下次再听到某个模型"参数多到吓人却还那么便宜",你心里就有数了:大概率,它在偷偷"分诊" 🩺。

本文为 AI 整理的科普解读,可能有误,仅供入门参考。

没看懂?让 AI 再讲一遍:

延伸阅读:可在公众号「数字生命卡兹克」「Datawhale」搜同名概念的科普文章。