kylearn
大模型基础

Transformer 架构

Transformer

一种让 AI'同时盯着一整句话、自动分清哪个词更重要'的发动机,相当于 AI 界的内燃机。

先打个比方

想象你在一个吵闹的饭局上听人说话。一句"我把杯子放在桌子上,因为它太满了"——"它"到底指杯子还是桌子?你的大脑会自动把"它"和"杯子"连起来,因为你同时听完了整句话,而不是一个词一个词死磕。

Transformer 干的就是这件事:它让 AI 一次性盯着整句话,自动判断哪个词该跟哪个词"对上眼"、谁更重要。这套机制有个名字叫"注意力"(说白了就是"重点关注谁")。

它到底是什么

Transformer 是 AI 的一种"发动机"设计图。在它出现之前,AI 读句子像挤地铁,只能一个词一个词排队往前走,读到后面常忘了前面。

Transformer 把队伍拆了,让所有词同时进场、互相打量,谁重要谁说话。这样既读得快,又记得住前后联系。今天你用的聊天 AI、翻译、写作工具,几乎都装着这台发动机。

为什么和你有关

你天天听到的 GPT,那个 "T" 就是 Transformer。可以说,现在主流 AI 的"聪明",大半要归功于这个设计。懂了它,你就摸到了"AI 为什么突然这么能聊"的门道。🚀

下次跟 AI 聊天,不妨留意它怎么接住你前面提过的细节——那就是注意力在替你"划重点"。

本文为 AI 整理的科普解读,可能有误,仅供入门参考。

没看懂?让 AI 再讲一遍:

延伸阅读:可在公众号「数字生命卡兹克」「Datawhale」搜同名概念的科普文章。