L

Llama 3.2 11B Vision

由meta-llama開發
Llama 3.2-Vision是由Meta開發的多模態大語言模型系列,包含11B和90B兩種規模,支持圖像+文本輸入和文本輸出,針對視覺識別、圖像推理、圖像描述和圖像問答任務進行了優化。
下載量 31.12k
發布時間 : 9/18/2024

模型概述

該系列模型基於純文本模型Llama 3.1構建,通過監督微調和人類反饋強化學習實現與人類偏好的對齊,視覺能力通過獨立訓練的視覺適配器實現。

模型特點

多模態能力
支持圖像和文本的聯合輸入,能夠理解和生成與圖像相關的文本內容。
大規模預訓練
基於60億圖文對進行預訓練,具備強大的視覺和語言理解能力。
指令調優優化
通過300萬合成樣本進行指令調優,優化了視覺識別、圖像推理等任務的表現。
長上下文支持
支持128k的上下文長度,適合處理複雜的多模態任務。
安全措施
包含三層防護策略和專項風險評估,確保模型的安全使用。

模型能力

視覺問答
圖像推理
圖像描述生成
圖文檢索
視覺定位
多語言文本處理

使用案例

教育
大學級視覺推理
用於解答大學級別的視覺推理問題。
在MMMU-val測試集上達到50.7%(11B模型)和60.3%(90B模型)的準確率。
商業
圖表理解
用於理解和解釋商業圖表中的數據。
在ChartQA-test測試集上達到83.4%(11B模型)和85.5%(90B模型)的準確率。
通用
通用視覺問答
用於回答與圖像相關的各種問題。
在VQAv2-test測試集上達到75.2%(11B模型)和78.1%(90B模型)的準確率。
多語言
多語言文本處理
用於處理多種語言的文本任務。
在MGSM-CoT測試集上達到68.9%(11B模型)和86.9%(90B模型)的準確率。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase