Llama-3.2-11B-Vision-invoices-mini Open-Source Multimodal Model - Supports Visual Instruction Understanding, Doubles Training Speed

Llama 3.2 11B Vision Invoices Mini

Developed by atulSethi

A multimodal large language model fine-tuned based on unsloth/llama-3.2-11b-vision-instruct-unsloth-bnb-4bit, supporting visual instruction understanding tasks, with Unsloth optimization doubling training speed.

Text-to-Image

Transformers

EnglishOpen Source License:Apache-2.0 #Visual Instruction Fine-tuning #4bit Quantized Inference #Unsloth Acceleration

Downloads 46

Release Time : 3/10/2025

Model Overview

This is a multimodal large language model that supports both visual and text instructions, suitable for multimodal understanding and generation tasks.

Model Features

Efficient Training Optimization

Training with Unsloth and Huggingface TRL library, achieving 2x speed improvement

Multimodal Capability

Supports understanding and generation of both visual and text instructions

Quantization Compression

Utilizes 4bit quantization technology to reduce model storage and computational requirements

Model Capabilities

Text generation

Visual instruction understanding

Multimodal reasoning

Instruction following

Use Cases

Multimodal Interaction

Visual Question Answering

Answer questions based on image content

Image Caption Generation

Generate natural language descriptions for input images

Content Generation

Multimodal Content Creation

Generate creative content combining visual and text inputs

Property	Details
Base Model	unsloth/llama-3.2-11b-vision-instruct-unsloth-bnb-4bit
Tags	text-generation-inference, transformers, unsloth, mllama
Developer	atulSethi
License	apache-2.0

Featured Recommended AI Models

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

Llama 3.2 11B Vision Invoices Mini

Model Overview

Model Features

Model Capabilities

Use Cases

🚀 Uploaded finetuned model

🚀 Quick Start

📚 Documentation

Model Information

Model Source

📄 License