CogVLM开源视觉语言模型 - 免费部署，多跨模态基准测试SOTA性能

首页

Cogvlm Grounding Generalist Hf

由 THUDM 开发

CogVLM 是一个强大的开源视觉语言模型（VLM），在多个跨模态基准测试上取得了SOTA性能。

图像生成文本

Transformers

#视觉语言大模型 #多模态基准SOTA #视觉专家模块

下载量 702

发布时间 : 11/17/2023

模型简介

CogVLM 是一个视觉语言模型，能够理解和生成与图像相关的文本描述，支持多模态对话和物体定位。

模型特点

多模态理解

能够同时处理视觉和语言信息，实现图像与文本的深度交互

高性能

在10个经典跨模态基准测试上取得SOTA性能，部分任务超越PaLI-X 55B

物体定位能力

可提供图像中提及物体的坐标位置信息

开源模型

代码和模型权重开放，便于研究和应用

模型能力

图像描述生成

视觉问答

多模态对话

物体检测与定位

跨模态理解

使用案例

图像理解

自动图像标注

为图像生成详细描述文本

在COCO captioning等基准测试中表现优异

视觉问答

回答关于图像内容的自然语言问题

在VQAv2、OKVQA等基准测试中排名第二

人机交互

多模态对话

基于图像内容的自然语言对话

支持复杂的图像相关对话交互

计算机视觉辅助

物体定位

识别图像中物体并提供坐标位置

可输出物体边界框坐标[[x0,y0,x1,y1]]

🚀 CogVLM

CogVLM 是一个强大的开源视觉语言模型（VLM）。CogVLM - 17B 拥有 100 亿视觉参数和 70 亿语言参数，在 10 个经典跨模态基准测试上取得了最优（SOTA）性能，这些测试包括 NoCaps、Flicker30k captioning、RefCOCO、RefCOCO+、RefCOCOg、Visual7W、GQA、ScienceQA、VizWiz VQA 和 TDIUC。在 VQAv2、OKVQA、TextVQA、COCO captioning 等方面则排名第二，超越或与 PaLI - X 55B 持平。您可以通过线上 demo 体验 CogVLM 多模态对话。

🚀 快速开始

import torch
from PIL import Image
from transformers import AutoModelForCausalLM, LlamaTokenizer

tokenizer = LlamaTokenizer.from_pretrained('lmsys/vicuna-7b-v1.5')
model = AutoModelForCausalLM.from_pretrained(
    'THUDM/cogvlm-grounding-generalist-hf',
    torch_dtype=torch.bfloat16,
    low_cpu_mem_usage=True,
    trust_remote_code=True
).to('cuda').eval()

query = 'Can you provide a description of the image and include the coordinates [[x0,y0,x1,y1]] for each mentioned object?'
image = Image.open(requests.get('https://github.com/THUDM/CogVLM/blob/main/examples/4.jpg?raw=true', stream=True).raw).convert('RGB')
inputs = model.build_conversation_input_ids(tokenizer, query=query, images=[image])
inputs = {
    'input_ids': inputs['input_ids'].unsqueeze(0).to('cuda'),
    'token_type_ids': inputs['token_type_ids'].unsqueeze(0).to('cuda'),
    'attention_mask': inputs['attention_mask'].unsqueeze(0).to('cuda'),
    'images': [[inputs['images'][0].to('cuda').to(torch.bfloat16)]],
}
gen_kwargs = {"max_length": 2048, "do_sample": False}

with torch.no_grad():
    outputs = model.generate(**inputs, **gen_kwargs)
    outputs = outputs[:, inputs['input_ids'].shape[1]:]
    print(tokenizer.decode(outputs[0]))

📚 详细文档

CogVLM 模型包括四个基本组件：视觉变换器（ViT）编码器、MLP 适配器、预训练的大型语言模型（GPT）和一个视觉专家模块。更多细节请参见Paper。

📄 许可证

此存储库中的代码是根据 Apache - 2.0 许可开放源码，而使用 CogVLM 模型权重必须遵循模型许可。

📖 引用

如果您觉得我们的工作有帮助，请考虑引用以下论文：

@article{wang2023cogvlm,
      title={CogVLM: Visual Expert for Pretrained Language Models}, 
      author={Weihan Wang and Qingsong Lv and Wenmeng Yu and Wenyi Hong and Ji Qi and Yan Wang and Junhui Ji and Zhuoyi Yang and Lei Zhao and Xixuan Song and Jiazheng Xu and Bin Xu and Juanzi Li and Yuxiao Dong and Ming Ding and Jie Tang},
      year={2023},
      eprint={2311.03079},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}