kylearn
应用与工具

嵌入 / 向量

Embedding

把一句话、一张图变成一串数字坐标,意思越接近的东西坐标挨得越近,像给万物在地图上标了'语义 GPS'。

先打个比方

想象你把全世界的词都搬进一座超大的"意思商场"。意思相近的,电脑就把它们安排在挨着的店铺:「猫」和「狗」在同一层逛街,「香蕉」和「苹果」在隔壁水果区,而「猫」和「火箭」隔了十万八千里 🛒。

这个"商场地址",其实就是一串数字坐标,比如 (0.8, 0.2, 0.5…)。把一句话、一张图变成这样一串坐标的过程,就叫嵌入(Embedding),得到的那串数字就叫向量

它到底是什么

机器其实不懂"意思",它只会算数。所以聪明人想了个办法:把语义偷偷"翻译"成坐标。意思越近,坐标挨得越近;意思差得远,坐标也离得远。

于是"谁和谁像不像"这种很玄的问题,就变成了"两个坐标点之间隔多远"这种小学几何题——机器一减一算就知道答案。它没真懂语言,只是把理解这件事,转成了它最擅长的距离计算。

为什么和你有关

你天天用的功能,背后几乎全靠它:

  • 搜索:你搜"便宜又好开的车",能翻出写着"性价比高、新手友好"的文章,靠的就是坐标挨得近,而不是死抠字面。
  • 推荐:刷到的下一个视频,是因为它和你刚点赞的那条"坐标相邻"。
  • RAG(让 AI 先查资料再回答):AI 也是先把你的问题变成坐标,去资料堆里捞最近的几段,再开口说话。

一句话记住它:嵌入就是 AI 的"意思尺子"——它量的不是字一不一样,而是意思像不像。下次 AI 答得特别懂你,你就知道,是这把尺子在悄悄发力。

本文为 AI 整理的科普解读,可能有误,仅供入门参考。

没看懂?让 AI 再讲一遍:

延伸阅读:可在公众号「数字生命卡兹克」「Datawhale」搜同名概念的科普文章。