P

Paligemma2 10b Pt 448

由google開發
PaliGemma 2是Google推出的升級版視覺語言模型(VLM),融合Gemma 2能力,支持圖像和文本輸入生成文本輸出。
下載量 282
發布時間 : 11/21/2024

模型概述

基於SigLIP視覺模型和Gemma 2語言模型構建的多模態模型,專為視覺語言任務優化,支持多語言和多種下游任務微調。

模型特點

多模態理解
同時處理圖像和文本輸入,實現跨模態理解與生成
多任務適配
支持圖像描述、視覺問答、文本閱讀、目標檢測和分割等多種任務
高分辨率處理
支持448×448像素圖像輸入,提升細粒度視覺理解能力
負責任AI
訓練數據經過嚴格安全過濾,移除不當內容和隱私信息

模型能力

圖像描述生成
視覺問答
多語言文本生成
目標檢測
圖像分割
短視頻理解

使用案例

內容理解
自動圖像標註
為圖像生成描述性文本標籤
在COCO-35L英文測試集上CIDEr得分142.4
視覺問答系統
回答關於圖像內容的自然語言問題
在AOKVQA驗證集上準確率70.8%
文檔處理
文檔視覺問答
理解掃描文檔中的文字和佈局
在DocVQA驗證集上準確率76.6%
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase