多模态（Multimodal）

多模态

Multimodal

AI 不只看懂文字，还能同时看图、听声、读视频，像个眼耳口手都齐全的全能感官选手，而不是只会读书的书呆子。

先打个比方

想象你点了一份外卖。送达后，你会用眼睛看包装有没有破、用鼻子闻一闻味道对不对、用手摸一摸还烫不烫，再尝一口判断好不好吃。你不是只靠一种感官，而是眼、耳、鼻、口、手一起上——大脑把这些信息揉到一块儿，才得出"这顿饭值不值"的结论。

人天生就是这么干活的。多模态，说白了就是让 AI 也学会"多种感官一起用"。

"模态"是个唬人的词，其实就是"信息的一种形式"。文字是一种模态，图片是一种，声音、视频各算一种。

早些年的 AI 比较偏科：会聊天的只懂文字，看不懂图；能识图的又不会说话。多模态 AI 厉害在于——它能同时吃下文字、图片、声音、视频，还能把它们对应起来理解。你发一张冰箱照片问"我能做什么菜"，它既看懂了图里有什么食材，又听懂了你的问题，然后用文字回你。眼、耳、嘴打通了。🍳

这正是 AI 从"会读写"迈向"会看会听会说"的关键一步，也是它越来越像个能搭把手的助手、而不只是聊天框的原因。

下次用 AI 时不妨试试：别光打字，直接拍张照片、发段语音问问题。你会发现，把"说不清楚的事"丢给它看一眼，往往比憋半天文字更省事。

本文为 AI 整理的科普解读，可能有误，仅供入门参考。

没看懂？让 AI 再讲一遍：

延伸阅读：可在公众号「数字生命卡兹克」「Datawhale」搜同名概念的科普文章。