L

Llama 3.2 11B Vision Instruct

由alpindale開發
Llama 3.2-Vision是Meta開發的多模態大型語言模型,支持圖像和文本輸入,能夠進行視覺識別、圖像推理和描述等任務。
下載量 3,057
發布時間 : 9/25/2024

模型概述

Llama 3.2-Vision是基於Llama 3.1純文本模型構建的多模態模型,針對視覺識別、圖像推理、圖像描述和回答關於圖像的一般問題進行了優化。

模型特點

多模態能力
支持圖像和文本輸入,能夠理解和生成與圖像相關的文本內容。
大規模參數
提供11B和90B兩種參數規模的模型,適應不同計算需求。
多語言支持
支持包括英語、德語、法語、意大利語、葡萄牙語、印地語、西班牙語和泰語在內的多種語言。
優化的視覺識別
針對視覺識別、圖像推理和描述任務進行了專門優化,性能優於許多開源和閉源多模態模型。

模型能力

視覺識別
圖像推理
圖像描述
多語言文本生成
回答關於圖像的問題

使用案例

圖像理解
圖像描述生成
為輸入的圖像生成詳細的文本描述。
生成的描述準確且詳細,適用於輔助視覺障礙用戶。
視覺問答
回答用戶關於圖像內容的提問。
能夠準確回答關於圖像中物體、場景和關係的複雜問題。
多語言應用
多語言圖像標註
用多種語言為圖像生成標註和描述。
支持多種語言的圖像理解和描述,適用於國際化應用。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase