L

Llama 3.2 90B Vision Instruct

由meta-llama開發
Llama 3.2-Vision是Meta開發的多模態大語言模型,支持圖像和文本輸入,文本輸出,在視覺識別、圖像推理、圖像描述和圖像問答任務上表現優異。
下載量 15.44k
發布時間 : 9/19/2024

模型概述

基於純文本模型Llama 3.1構建的多模態模型,通過視覺適配器集成圖像處理能力,適用於視覺問答、圖像描述生成等任務。

模型特點

多模態能力
支持圖像和文本輸入,能夠理解和分析圖像內容並生成相關文本輸出。
高性能視覺理解
在視覺問答、文檔解析和圖表推理等任務上超越多數開源和閉源多模態模型。
長上下文支持
支持128k的上下文長度,適合處理複雜的多模態任務。
安全對齊
通過監督微調(SFT)和人類反饋強化學習(RLHF)實現與人類價值觀的對齊。

模型能力

視覺問答
圖像推理
圖像描述生成
圖文檢索匹配
視覺定位
文檔視覺問答
圖表推理

使用案例

視覺問答
圖像內容問答
回答關於圖像內容的自然語言問題
在VQAv2數據集上準確率達73.6%
文檔處理
文檔視覺問答
理解和回答基於文檔圖像的問題
在DocVQA數據集上ANLS得分70.7
圖像生成
圖像描述生成
為輸入圖像生成自然語言描述
可生成高質量的圖像描述和創意文本
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase