L

Llama 3.2 11b Vision R1 Distill

由bababababooey開發
Llama 3.2-Vision是由Meta開發的多模態大語言模型,支持圖像和文本輸入,針對視覺識別、圖像推理和描述任務進行了優化。
下載量 29
發布時間 : 2/7/2025

模型概述

基於Llama 3.1純文本模型構建的多模態模型,通過圖像適配器支持視覺任務,在多種視覺基準測試中表現優異。

模型特點

多模態理解
同時處理圖像和文本輸入,實現跨模態理解與推理
長上下文支持
128k tokens的上下文窗口,適合處理複雜視覺場景
高效推理
採用分組查詢注意力(GQA)技術提升推理效率
安全對齊
通過RLHF和SFT與人類偏好對齊,內置安全緩解措施

模型能力

視覺問答
圖像描述生成
文檔理解
圖表解析
多語言文本生成
視覺定位
圖像-文本檢索

使用案例

教育
教材內容理解
解析教科書中的圖表和插圖,回答學生問題
在MMMU大學水平問題測試中達到60.3%準確率
商業分析
商業圖表解讀
自動分析財報圖表和數據可視化
ChartQA測試集上達到85.5%準確率
文檔處理
智能發票處理
從發票圖像中提取關鍵信息並計算日期差
DocVQA測試ANLS得分90.1
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase