L

Llava Llama 3 8b V1 1 GGUF

由MoMonir開發
基於Meta-Llama-3-8B-Instruct和CLIP-ViT-Large-patch14-336微調的LLaVA模型,支持圖像轉文本任務
下載量 138
發布時間 : 5/4/2024

模型概述

這是一個視覺語言模型,能夠理解圖像內容並生成相關文本描述,適用於多模態交互場景。

模型特點

多模態理解
結合視覺編碼器和語言模型,能夠理解圖像內容並生成相關文本
高效微調
使用LoRA技術對視覺編碼器進行微調,提高模型性能
GGUF格式支持
轉換為GGUF格式,兼容多種推理工具和平臺

模型能力

圖像內容理解
圖像描述生成
多模態對話
視覺問答

使用案例

內容生成
自動圖像標註
為圖像生成描述性文本
可用於輔助視障人士或內容管理系統
教育
視覺問答系統
回答關於圖像內容的問題
在MMBench測試中獲得72.3分(EN)
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase