Yi-VL-6B-hf开源多模态视觉语言模型 - 支持中英双语视觉问答任务

首页

Yi VL 6B Hf

由 BUAADreamer 开发

Yi-VL-6B是由01-AI开发的多模态视觉语言模型，支持中文和英文，适用于视觉问答等任务。

图像生成文本

Transformers

支持多种语言开源协议:其他 #多模态视觉问答 #中英双语支持 #高效微调适配

下载量 55

发布时间 : 5/14/2024

模型简介

Yi-VL-6B是一个基于Yi系列的多模态视觉语言模型，能够处理图像和文本的联合任务，如视觉问答、图像描述生成等。

模型特点

多模态能力

能够同时处理图像和文本输入，实现视觉与语言的联合理解。

高效微调支持

推荐使用LLaMA-Factory工具包进行高效微调，便于下游任务适配。

中英双语支持

原生支持中文和英文的视觉语言任务处理。

模型能力

视觉问答

图像理解

多模态推理

使用案例

教育

视觉问答辅助学习

帮助学生通过图像提问获取相关知识解释

内容理解

图像内容描述生成

为图片自动生成文字描述

🚀 易视觉大模型（Yi-VL-6B）Huggingface版本

这是易视觉大模型（Yi-VL-6B）的Huggingface版本。你可以使用此模型进行下游任务的微调，我们推荐使用我们高效的微调工具包：https://github.com/hiyouga/LLaMA-Factory 。

✨ 主要特性

开发方：01-AI。
支持语言：中文和英文。
许可证：易系列模型许可证。

📦 安装指南

文档中未提及具体安装步骤，可参考相关依赖库的官方文档进行安装，如transformers、torch、Pillow、requests等。

💻 使用示例

基础用法

import requests
from PIL import Image

import torch
from transformers import AutoProcessor, AutoModelForVision2Seq, LlavaConfig
import transformers
from torch import nn

class LlavaMultiModalProjectorYiVL(nn.Module):
    def __init__(self, config: "LlavaConfig"):
        super().__init__()
        self.linear_1 = nn.Linear(config.vision_config.hidden_size, config.text_config.hidden_size, bias=True)
        self.linear_2 = nn.LayerNorm(config.text_config.hidden_size, bias=True)
        self.linear_3 = nn.Linear(config.text_config.hidden_size, config.text_config.hidden_size, bias=True)
        self.linear_4 = nn.LayerNorm(config.text_config.hidden_size, bias=True)
        self.act = nn.GELU()

    def forward(self, image_features):
        hidden_states = self.linear_1(image_features)
        hidden_states = self.linear_2(hidden_states)
        hidden_states = self.act(hidden_states)
        hidden_states = self.linear_3(hidden_states)
        hidden_states = self.linear_4(hidden_states)
        return hidden_states
# Monkey patch of LlavaMultiModalProjector is mandatory
transformers.models.llava.modeling_llava.LlavaMultiModalProjector = LlavaMultiModalProjectorYiVL

model_id = "BUAADreamer/Yi-VL-6B-hf"

messages = [
  { "role": "user", "content": "<image>What's in the picture?" }
]
image_file = "http://images.cocodataset.org/val2017/000000039769.jpg"

model = AutoModelForVision2Seq.from_pretrained(
    model_id, 
    torch_dtype=torch.float16, 
    low_cpu_mem_usage=True, 
).to(0)
processor = AutoProcessor.from_pretrained(model_id)

text = [processor.tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=False)]
images = [Image.open(requests.get(image_file, stream=True).raw)]
inputs = processor(text=text, images=images, return_tensors='pt').to(0, torch.float16)

output = model.generate(**inputs, max_new_tokens=200)
output = processor.batch_decode(output, skip_special_tokens=True)
print(output.split("Assistant:")[-1].strip())

高级用法

你也可以使用 LLaMA-Factory 中的CLI命令启动一个Web演示：

llamafactory-cli webchat \
--model_name_or_path BUAADreamer/Yi-VL-6B-hf \
--template yivl \
--visual_inputs

📚 详细文档

lmms-eval评估结果

指标	值
MMMU_val	36.8
CMMMU_val	32.2

📄 许可证

本项目使用易系列模型许可证。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

智启未来，您的人工智能解决方案智库