多模态分词示例

文本输入

"一只猫坐在垫子上"

图像输入

🐱

多模态Token空间

一只

猫

坐在

垫子

上

区域1

区域2

区域3

图像可以被分割为视觉token，类似于文本被分割为文本token，使模型能够统一处理不同模态的信息。