L

Llama 3.1 8B Vision 378

由qresearch開發
該項目訓練了一個投影模塊,用於為Llama 3添加視覺能力,使用了SigLIP技術,並應用於Llama-3.1-8B-Instruct模型。
下載量 203
發布時間 : 7/23/2024

模型概述

這是一個結合視覺和語言能力的多模態模型,能夠處理圖像和文本輸入,生成文本輸出。

模型特點

視覺能力增強
通過訓練投影模塊為Llama 3模型添加視覺處理能力
SigLIP技術應用
使用SigLIP技術實現圖像和文本的聯合處理
4位量化支持
支持4位量化部署,降低硬件要求

模型能力

圖像理解
圖像描述生成
視覺問答
多模態推理

使用案例

圖像理解
圖像描述生成
輸入一張圖片,模型可以生成對圖片內容的文字描述
生成簡潔準確的圖片描述
視覺問答
基於圖片內容回答相關問題
提供與圖片內容相關的準確回答
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase