L

Llama 3.2 11B Vision OCR

Developed by Swapnik
基於Unsloth優化的Llama 3.2-11B視覺指令模型,4bit量化版本,訓練速度提升2倍
Downloads 80
Release Time : 3/8/2025

Model Overview

這是一個結合視覺和文本指令的多模態模型,適用於視覺-語言任務,採用Llama架構並經過4bit量化優化

Model Features

高效訓練優化
使用Unsloth和Huggingface TRL庫進行訓練,速度提升2倍
4bit量化
採用4bit量化技術,降低顯存需求
多模態能力
同時支持視覺和文本指令處理

Model Capabilities

視覺指令理解
多模態文本生成
圖像內容分析
跨模態推理

Use Cases

視覺問答
圖像描述生成
根據輸入圖像生成詳細描述
視覺指令執行
理解並執行基於圖像和文本的複合指令
教育輔助
多模態教學
結合圖像和文字解釋複雜概念
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase