L

Llama 3.2 90B Vision

由meta-llama開發
Llama 3.2-Vision是Meta開發的多模態大語言模型系列,支持圖像+文本輸入和文本輸出,專為視覺識別、圖像推理、圖像描述和圖像問答任務優化。
下載量 3,235
發布時間 : 9/19/2024

模型概述

基於純文本模型Llama 3.1構建的多模態模型,通過獨立訓練的視覺適配器實現圖像理解能力,在視覺問答、文檔解析等任務中表現優異。

模型特點

超長上下文支持
128k tokens的上下文窗口長度,適合處理高分辨率圖像和複雜圖文交互
高效視覺適配器
通過交叉注意力層實現的獨立視覺編碼器,在不影響文本能力的前提下增強圖像理解
多階段優化
經過預訓練、監督微調(SFT)和人類反饋強化學習(RLHF)三階段優化
綠色計算
訓練過程使用可再生能源,實現淨零碳排放

模型能力

圖像內容理解
視覺問答推理
多語言文本生成
文檔圖文解析
圖表數據解讀
場景描述生成

使用案例

視覺理解
醫療影像分析
解讀X光片等醫學圖像並生成診斷建議
在專業測試集上達到接近專家的識別準確率
零售商品識別
識別商品圖像並生成營銷描述
可自動生成符合SEO優化的產品文案
教育輔助
科學圖表解釋
解析教科書中的複雜圖表並生成通俗解釋
在ChartQA測試集上達到85.5%準確率
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase