CVPR 2024 | 视觉新突破！首个无自然语言的纯视觉大模型！-白红宇

CVPR 2024 | 视觉新突破！首个无自然语言的纯视觉大模型！

阅读量：798 次

发布时间：2023-04-05

本文共 660 字，大约阅读时间需要 2 分钟。

构建大型视觉模型（LVM）的探索：仅靠像素就能走多远？

随着大型语言模型（LLM）的崛起，视觉模型的研究也备受关注。UC伯克利和约翰霍普金斯大学的研究者在一篇新论文中探讨了构建大型视觉模型所需的关键要素，展示了仅靠像素数据即可实现的强大潜力。

研究者提出了一种基于视觉句子的统一模型框架，能够处理多种视觉任务。这一框架利用VQGAN生成视觉token，并将这些token连接成一维序列，类似于语言模型的自回归预测。这种方法无需额外像素信息，直接利用现有标注数据进行训练。

视觉token生成：使用VQGAN将图像映射为一系列离散token，处理后的图像序列作为输入给Transformer模型训练。

视觉句子建模：将多个图像的token连接成一维序列，视觉句子作为统一序列，无需特殊处理。

模型训练：在大规模数据集上训练模型，采用不同尺寸的模型验证扩展能力和任务理解能力。

这项研究为大型视觉模型的发展提供了新的方向，展示了仅靠像素数据即可实现视觉模型的强大潜力。未来的研究可以进一步优化模型架构和数据集，探索模型在复杂任务中的应用潜力。

转载地址：http://rtrfk.baihongyu.com/

你可能感兴趣的文章