多模态论文学习 2025-11-08 21:50 | 20 | 0 | 笔记 3874 字 | 15 分钟 Unified Multimodal Understanding via Byte-Pair Visual Encoding 标题来看,通过 字节对视觉编码 实现统一的多模态理解,嗯抽象 论文核心思想,是把自然语言中的BPE(Byte-Pair Encoding)分词技术应用于视觉领域[传统的是利用视觉编码器(CLIP)],从而为图像文字共同创建一…