L

Llama 3.2 11B Vision OCR

由Swapnik開發
基於Unsloth優化的Llama 3.2-11B視覺指令模型,4bit量化版本,訓練速度提升2倍
下載量 80
發布時間 : 3/8/2025

模型概述

這是一個結合視覺和文本指令的多模態模型,適用於視覺-語言任務,採用Llama架構並經過4bit量化優化

模型特點

高效訓練優化
使用Unsloth和Huggingface TRL庫進行訓練,速度提升2倍
4bit量化
採用4bit量化技術,降低顯存需求
多模態能力
同時支持視覺和文本指令處理

模型能力

視覺指令理解
多模態文本生成
圖像內容分析
跨模態推理

使用案例

視覺問答
圖像描述生成
根據輸入圖像生成詳細描述
視覺指令執行
理解並執行基於圖像和文本的複合指令
教育輔助
多模態教學
結合圖像和文字解釋複雜概念
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase