開源tvl-mini-0.1模型 - 基於俄語微調，支持多模態任務免費部署

首頁

Tvl Mini 0.1

由2Vasabi開發

這是基於俄語對Qwen2-VL-2B模型進行的LORA微調版本，支持多模態任務。

圖像生成文本

Transformers

支持多種語言開源協議:Apache-2.0 #俄英多模態 #視覺問答優化 #小參數微調

下載量 23

發布時間 : 9/13/2024

模型概述

該模型是基於Qwen2-VL-2B-Instruct進行LORA微調的俄語多模態模型，主要用於文本生成任務，同時支持視覺推理、圖像描述、視覺問答等多種多模態任務。

模型特點

多語言支持

特別針對俄語進行了優化，同時保持英語能力

多模態能力

支持圖像和文本的聯合處理，能夠進行視覺推理和問答

高效微調

使用LORA技術對基礎模型進行高效微調

模型能力

文本生成

視覺推理

圖像描述

視覺問答

多模態對話

使用案例

內容生成

圖像描述生成

根據輸入的圖像生成詳細的文字描述

能夠準確描述圖像中的主要內容和場景

智能問答

視覺問答

回答關於圖像內容的各類問題

能夠理解圖像內容並給出相關回答

🚀 tvl-mini

這是一個基於LoRA微調的模型，在俄語環境下對Qwen2-VL-2B進行了優化，可用於文本到文本的生成任務，支持多模態數據處理。

🚀 快速開始

你可以直接運行此筆記本，或者運行以下代碼。

首先，安裝 qwen-vl-utils 和 transformers 的開發版本：

pip install qwen-vl-utils
pip install --no-cache-dir git+https://github.com/huggingface/transformers@19e6e80e10118f855137b90740936c0b11ac397f

然後運行以下代碼：

from transformers import Qwen2VLForConditionalGeneration, AutoTokenizer, AutoProcessor
from qwen_vl_utils import process_vision_info
import torch

model = Qwen2VLForConditionalGeneration.from_pretrained(
    "2Vasabi/tvl-mini-0.1", torch_dtype=torch.bfloat16, device_map="auto"
)

processor = AutoProcessor.from_pretrained("Qwen/Qwen2-VL-2B-Instruct")
messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "image",
                "image": "https://i.ibb.co/d0QL8s6/images.jpg",
            },
            {"type": "text", "text": "Кратко опиши что ты видишь на изображении"},
        ],
    }
]

text = processor.apply_chat_template(
    messages, tokenize=False, add_generation_prompt=True
)
image_inputs, video_inputs = process_vision_info(messages)
inputs = processor(
    text=[text],
    images=image_inputs,
    videos=video_inputs,
    padding=True,
    return_tensors="pt",
)

inputs = inputs.to("cuda")

generated_ids = model.generate(**inputs, max_new_tokens=1000)
generated_ids_trimmed = [
    out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]
output_text = processor.batch_decode(
    generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
)
print(output_text)

✨ 主要特性

這是對Qwen2-VL-2B在俄語上進行的LORA微調模型。

📦 安裝指南

首先，安裝 qwen-vl-utils 和 transformers 的開發版本：

pip install qwen-vl-utils
pip install --no-cache-dir git+https://github.com/huggingface/transformers@19e6e80e10118f855137b90740936c0b11ac397f

📚 詳細文檔

數據

數據集包含：

GrandMaster-PRO-MAX數據集（68k樣本）
視覺推理（36k樣本） #訓練中
圖像描述（34k樣本） #訓練中
知識問答（35k樣本） #訓練中
問答（80k樣本） #訓練中
分類（21k樣本） #訓練中
對話（11k樣本） #訓練中

基準測試

TODO

📄 許可證

本項目採用Apache-2.0許可證。

屬性	詳情
模型類型	基於Qwen2-VL-2B的LORA微調模型
訓練數據	GrandMaster-PRO-MAX數據集、視覺推理數據、圖像描述數據、知識問答數據、問答數據、分類數據、對話數據
支持語言	俄語、英語
基礎模型	Qwen/Qwen2-VL-2B-Instruct
任務類型	文本到文本生成
標籤	多模態
庫名稱	transformers