多模态分词示例
文本输入
"一只猫坐在垫子上"
图像输入
🐱
多模态Token空间
一只
猫
坐在
垫子
上
区域1
区域2
区域3
图像可以被分割为视觉token,类似于文本被分割为文本token,使模型能够统一处理不同模态的信息。