模型简介

InternLM-XComposer2是基于InternLM2开发的视觉语言大模型(VLLM)，具备卓越的图文理解与创作能力。包含两个版本：InternLM-XComposer2-VL（多模态预训练模型）和InternLM-XComposer2（专为自由式图文交错创作任务微调的视觉语言模型）。

模型特点

多模态理解与创作

具备卓越的图文理解与创作能力，支持自由式图文交错创作

双版本模型

提供VL预训练模型和专为图文创作优化的微调模型

高效推理

支持批量化训练与flash-attn加速功能

模型能力

图像理解

文本生成

图文交错创作

视觉问答

使用案例

内容创作

图文博客创作

根据图片自动生成详细描述和配套文字内容

生成符合图片内容的自然语言描述

智能问答

视觉问答

回答关于图片内容的各类问题

准确理解图片内容并提供相关回答

🚀 InternLM-XComposer2

InternLM-XComposer2 是一款基于 InternLM2 的视觉语言大模型（VLLM），可实现高级的文本 - 图像理解与合成。本仓库基于 InternLM-XComposer2 官方版构建，支持 批量训练 和 闪存注意力机制（flash-attn） 以加速运算。欢迎试用并提出宝贵建议~

原始 InternLM-XC2 README

InternLM-XComposer2

[💻GitHub 仓库](https://github.com/InternLM/InternLM-XComposer) [论文](https://arxiv.org/abs/2401.16420)

我们发布了两个版本的 InternLM-XComposer2 系列模型：

InternLM-XComposer2-VL：以 InternLM2 作为大语言模型（LLM）初始化的预训练 VLLM 模型，在各种多模态基准测试中表现出色。
InternLM-XComposer2：针对 自由形式的文本 - 图像交错合成 进行微调的 VLLM 模型。

🚀 快速开始

我们提供一个简单示例，展示如何使用 🤗 Transformers 调用 InternLM-XComposer。

基础用法

import torch
from transformers import AutoModel, AutoTokenizer

torch.set_grad_enabled(False)

# 初始化模型和分词器
model = AutoModel.from_pretrained('internlm/internlm-xcomposer2-vl-7b', trust_remote_code=True).cuda().eval()
tokenizer = AutoTokenizer.from_pretrained('internlm/internlm-xcomposer2-vl-7b', trust_remote_code=True)

query = '<ImageHere>Please describe this image in detail.'
image = './image1.webp'
with torch.cuda.amp.autocast():
  response, _ = model.chat(tokenizer, query=query, image=image, history=[], do_sample=False)
print(response)
# 图像中展示了奥斯卡·王尔德的一句名言：“无借口地生活，无遗憾地旅行”，背景是令人惊叹的日落景色。天空被染成了粉色和橙色，营造出宁静的氛围。两个剪影人物站在悬崖上，俯瞰着地平线。他们似乎正在徒步旅行或探索，体现了这句名言的精髓。整个场景传达出一种冒险和自由的感觉，鼓励观众毫不犹豫地拥抱生活，不留遗憾。

从 Transformers 导入模型

若要使用 Transformers 加载 InternLM-XComposer2-VL-7B 模型，请使用以下代码：

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
ckpt_path = "internlm/internlm-xcomposer2-vl-7b"
tokenizer = AutoTokenizer.from_pretrained(ckpt_path, trust_remote_code=True).cuda()
# 设置 `torch_dtype=torch.float16` 以 float16 格式加载模型，否则将以 float32 格式加载，可能导致内存溢出错误。
model = AutoModelForCausalLM.from_pretrained(ckpt_path, torch_dtype=torch.float16, trust_remote_code=True).cuda()
model = model.eval()