L

LVM Ckpts

由 Emma02 开发
LVM是一种创新的视觉预训练模型,通过将视觉数据转化为视觉语句并以自回归方式进行预测,实现了大规模视觉学习。
下载量 247
发布时间 : 6/13/2024

模型简介

LVM是一种视觉预训练模型,通过将各类视觉数据转化为视觉语句,并通过自回归方式进行下一标记预测,实现了大规模视觉学习。该模型兼容GPU和TPU硬件平台。

模型特点

视觉序列建模
创新性地将视觉数据转化为视觉语句序列,实现自回归预测
大规模训练
使用经过深度清洗的12亿图像数据集进行训练
硬件兼容性
同时支持GPU和TPU硬件平台
参数规模
本次发布70亿参数版本,较原论文30亿参数有显著提升

模型能力

图像序列建模
视觉标记预测
大规模视觉学习

使用案例

计算机视觉
视觉内容生成
基于视觉序列的自回归预测能力可用于图像生成任务
视觉理解
大规模预训练模型可用于提升各类视觉理解任务的性能
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase