L

Llama 3.2 11B Vision Invoices Mini

由atulSethi開發
基於unsloth/llama-3.2-11b-vision-instruct-unsloth-bnb-4bit微調的多模態大語言模型,支持視覺指令理解任務,使用Unsloth優化訓練速度提升2倍。
下載量 46
發布時間 : 3/10/2025

模型概述

這是一個支持視覺和文本指令的多模態大語言模型,適用於多模態理解和生成任務。

模型特點

高效訓練優化
使用Unsloth和Huggingface TRL庫進行訓練,速度提升2倍
多模態能力
支持視覺和文本指令的理解與生成
量化壓縮
採用4bit量化技術,減少模型存儲和計算需求

模型能力

文本生成
視覺指令理解
多模態推理
指令跟隨

使用案例

多模態交互
視覺問答
根據圖像內容回答相關問題
圖像描述生成
為輸入圖像生成自然語言描述
內容生成
多模態內容創作
結合視覺和文本輸入生成創意內容
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase