Llama 3.2 11B Vision OCR
L
Llama 3.2 11B Vision OCR
Developed by Swapnik
基於Unsloth優化的Llama 3.2-11B視覺指令模型,4bit量化版本,訓練速度提升2倍
Downloads 80
Release Time : 3/8/2025
Model Overview
這是一個結合視覺和文本指令的多模態模型,適用於視覺-語言任務,採用Llama架構並經過4bit量化優化
Model Features
高效訓練優化
使用Unsloth和Huggingface TRL庫進行訓練,速度提升2倍
4bit量化
採用4bit量化技術,降低顯存需求
多模態能力
同時支持視覺和文本指令處理
Model Capabilities
視覺指令理解
多模態文本生成
圖像內容分析
跨模態推理
Use Cases
視覺問答
圖像描述生成
根據輸入圖像生成詳細描述
視覺指令執行
理解並執行基於圖像和文本的複合指令
教育輔助
多模態教學
結合圖像和文字解釋複雜概念
Featured Recommended AI Models
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers Supports Multiple Languages

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers English

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 Chinese
R
uer
2,694
98