P

Paligemma2 10b Pt 896

由google開發
PaliGemma 2是Google推出的視覺語言模型(VLM),融合Gemma 2能力,支持圖像和文本輸入生成文本輸出
下載量 233
發布時間 : 11/21/2024

模型概述

基於SigLIP視覺模型和Gemma 2語言模型構建的多模態模型,擅長圖像描述、視覺問答、文本閱讀、目標檢測和分割等視覺語言任務

模型特點

多模態理解
同時處理圖像和文本輸入,實現跨模態理解與生成
高分辨率支持
支持896×896高分辨率圖像輸入,提升細節理解能力
多任務適配
通過微調可適應多種視覺語言任務,包括檢測、分割和問答
負責任AI
訓練數據經過嚴格安全過濾,移除不當內容和個人敏感信息

模型能力

圖像描述生成
視覺問答
多語言文本生成
目標檢測
圖像分割
文本閱讀
短視頻理解

使用案例

內容理解
自動圖像標註
為圖像生成描述性文本
在COCO-35L數據集上英語描述得分142.4 CIDEr
文檔解析
從掃描文檔中提取和解釋文本
在DocVQA驗證集達到76.6準確率
智能交互
視覺問答系統
回答關於圖像內容的複雜問題
在AOKVQA多項選擇任務達87%準確率
圖表理解
解析和解釋圖表數據
在ChartQA人類標註數據上達66.4準確率
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase