L

Llama3.2 11B Vision Instruct INT4 GPTQ

由fahadh4ilyas開發
Llama 3.2-Vision是Meta開發的多模態大語言模型,具備圖像推理和文本生成能力,支持視覺識別、圖像描述和問答等任務。
下載量 1,770
發布時間 : 4/8/2025

模型概述

Llama 3.2-Vision是基於Llama 3.1純文本模型構建的多模態大語言模型,通過視覺適配器支持圖像輸入,適用於視覺問答、圖像描述等多種任務。

模型特點

多模態能力
同時處理圖像和文本輸入,實現跨模態理解和生成
大規模預訓練
基於60億(圖像,文本)對數據進行訓練,具備強大的視覺語言理解能力
長上下文支持
支持128k的上下文長度,適合處理複雜任務
高效推理
採用分組查詢注意力(GQA)技術,提高推理效率

模型能力

圖像理解
文本生成
視覺問答
圖像描述
文檔理解
視覺定位
圖像-文本檢索

使用案例

視覺問答
圖像內容問答
回答關於圖像內容的自然語言問題
準確理解圖像內容並提供相關回答
文檔處理
文檔視覺問答
理解文檔(如合同、地圖)的文本和佈局並回答問題
直接從文檔圖像中提取信息並回答問題
內容生成
圖像描述生成
為圖像生成詳細的自然語言描述
生成準確、流暢的圖像描述
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase