日期: 2025 年 11 月 8 日

1 篇文章

thumbnail
多模态论文学习
Unified Multimodal Understanding via Byte-Pair Visual Encoding 标题来看,通过 字节对视觉编码 实现统一的多模态理解,嗯抽象 论文核心思想,是把自然语言中的BPE(Byte-Pair Encoding)分词技术应用于视觉领域[传统的是利用视觉编码器(CLIP)],从而为图像文字共同创建一…