kylearn
多模态

多模态

Multimodal

AI 不只看懂文字,还能同时看图、听声、读视频,像个眼耳口手都齐全的全能感官选手,而不是只会读书的书呆子。

先打个比方

想象你点了一份外卖。送达后,你会用眼睛看包装有没有破、用鼻子闻一闻味道对不对、用手摸一摸还烫不烫,再尝一口判断好不好吃。你不是只靠一种感官,而是眼、耳、鼻、口、手一起上——大脑把这些信息揉到一块儿,才得出"这顿饭值不值"的结论。

人天生就是这么干活的。多模态,说白了就是让 AI 也学会"多种感官一起用"。

它到底是什么

"模态"是个唬人的词,其实就是"信息的一种形式"。文字是一种模态,图片是一种,声音、视频各算一种。

早些年的 AI 比较偏科:会聊天的只懂文字,看不懂图;能识图的又不会说话。多模态 AI 厉害在于——它能同时吃下文字、图片、声音、视频,还能把它们对应起来理解。你发一张冰箱照片问"我能做什么菜",它既看懂了图里有什么食材,又听懂了你的问题,然后用文字回你。眼、耳、嘴打通了。🍳

为什么和你有关

这正是 AI 从"会读写"迈向"会看会听会说"的关键一步,也是它越来越像个能搭把手的助手、而不只是聊天框的原因。

下次用 AI 时不妨试试:别光打字,直接拍张照片、发段语音问问题。你会发现,把"说不清楚的事"丢给它看一眼,往往比憋半天文字更省事。

本文为 AI 整理的科普解读,可能有误,仅供入门参考。

没看懂?让 AI 再讲一遍:

延伸阅读:可在公众号「数字生命卡兹克」「Datawhale」搜同名概念的科普文章。

相关概念