Llama-3.2-11B-Vision-OCR Open-source Visual Instruction Model - 4-bit Quantization, Doubling Training Speed

Llama 3.2 11B Vision OCR

Developed by Swapnik

Llama 3.2-11B vision-instruction model optimized with Unsloth, 4-bit quantized version, training speed increased by 2x

EnglishOpen Source License:Apache-2.0 #Efficient Fine-Tuning Optimization #Multimodal Instruction Understanding #4-bit Quantization Compression

Downloads 80

Release Time : 3/8/2025

Model Overview

A multimodal model combining vision and text instructions, suitable for vision-language tasks, built on Llama architecture and optimized with 4-bit quantization

Model Features

Efficient Training Optimization

Training with Unsloth and Huggingface TRL library, achieving 2x speedup

4-bit Quantization

Utilizes 4-bit quantization technology to reduce GPU memory requirements

Multimodal Capability

Supports both visual and text instruction processing

Model Capabilities

Visual Instruction Understanding

Multimodal Text Generation

Image Content Analysis

Cross-modal Reasoning

Use Cases

Visual Question Answering

Image Caption Generation

Generate detailed descriptions based on input images

Visual Instruction Execution

Understand and execute composite instructions combining images and text

Educational Assistance

Multimodal Teaching

Explain complex concepts using both images and text

Property	Details
Developed by	Swapnik
License	apache - 2.0
Finetuned from model	unsloth/llama-3.2-11b-vision-instruct-unsloth-bnb-4bit
Tags	text-generation-inference, transformers, unsloth, mllama
Base Model	unsloth/llama-3.2-11b-vision-instruct-unsloth-bnb-4bit
Language	en

Featured Recommended AI Models

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

Llama 3.2 11B Vision OCR

Model Overview

Model Features

Model Capabilities

Use Cases

🚀 Uploaded finetuned model

🚀 Quick Start

📚 Documentation

Model Information

📄 License