Open-source tvl-mini-0.1 model - Fine-tuned based on Russian, supports free deployment of multimodal tasks

Tvl Mini 0.1

Developed by 2Vasabi

This is a LORA fine-tuned version of the Qwen2-VL-2B model for Russian, supporting multimodal tasks.

Supports Multiple LanguagesOpen Source License:Apache-2.0 #Russian-English multimodal #Visual question answering optimization #Small parameter fine-tuning

Downloads 23

Release Time : 9/13/2024

Model Overview

This model is a Russian multimodal model based on LORA fine-tuning of Qwen2-VL-2B-Instruct, primarily used for text generation tasks while also supporting various multimodal tasks such as visual reasoning, image captioning, and visual question answering.

Model Features

Multilingual support

Specially optimized for Russian while maintaining English capabilities

Multimodal capabilities

Supports joint processing of images and text, enabling visual reasoning and question answering

Efficient fine-tuning

Uses LORA technology for efficient fine-tuning of the base model

Model Capabilities

Text generation

Visual reasoning

Image captioning

Visual question answering

Multimodal conversation

Use Cases

Content generation

Image caption generation

Generate detailed textual descriptions based on input images

Can accurately describe the main content and scenes in the image

Intelligent Q&A

Visual question answering

Answer various questions about image content

Can understand image content and provide relevant answers

🚀 tvl-mini

This is a LORA finetune of Qwen2-VL-2B on the Russian language, aiming to provide text2text-generation capabilities.

🚀 Quick Start

You can simply run this notebook or run the code below.

First, install qwen-vl-utils and the dev version of transformers:

pip install qwen-vl-utils
pip install --no-cache-dir git+https://github.com/huggingface/transformers@19e6e80e10118f855137b90740936c0b11ac397f

Then, run the following code:

from transformers import Qwen2VLForConditionalGeneration, AutoTokenizer, AutoProcessor
from qwen_vl_utils import process_vision_info
import torch

model = Qwen2VLForConditionalGeneration.from_pretrained(
    "2Vasabi/tvl-mini-0.1", torch_dtype=torch.bfloat16, device_map="auto"
)

processor = AutoProcessor.from_pretrained("Qwen/Qwen2-VL-2B-Instruct")
messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "image",
                "image": "https://i.ibb.co/d0QL8s6/images.jpg",
            },
            {"type": "text", "text": "Кратко опиши что ты видишь на изображении"},
        ],
    }
]

text = processor.apply_chat_template(
    messages, tokenize=False, add_generation_prompt=True
)
image_inputs, video_inputs = process_vision_info(messages)
inputs = processor(
    text=[text],
    images=image_inputs,
    videos=video_inputs,
    padding=True,
    return_tensors="pt",
)

inputs = inputs.to("cuda")

generated_ids = model.generate(**inputs, max_new_tokens=1000)
generated_ids_trimmed = [
    out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]
output_text = processor.batch_decode(
    generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
)
print(output_text)

✨ Features

This is a LORA finetune of Qwen2-VL-2B on the Russian language, enabling multimodal text2text-generation.

📦 Installation

First, install qwen-vl-utils and the dev version of transformers:

pip install qwen-vl-utils
pip install --no-cache-dir git+https://github.com/huggingface/transformers@19e6e80e10118f855137b90740936c0b11ac397f

📚 Documentation

Data

The dataset contains:

GrandMaster-PRO-MAX dataset (68k samples)
Visual Reasoning (36k samples) #Training in progress
Captioning (34k samples) #Training in progress
Knowledgeable VQA (35k samples) #Training in progress
VQA (80k samples) #Training in progress
Classification (21k samples) #Training in progress
Conversations (11k samples) #Training in progress

Bechmarks

TODO

📄 License

This project is licensed under the Apache-2.0 license.

Featured Recommended AI Models

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご