P

Paligemma2 3b Pt 224

由google開發
PaliGemma 2是Google開發的視覺語言模型(VLM),結合了Gemma 2語言模型和SigLIP視覺模型的能力,支持多語言視覺語言任務。
下載量 30.51k
發布時間 : 11/21/2024

模型概述

PaliGemma 2是基於Gemma 2和SigLIP的視覺語言模型,接受圖像和文本輸入並生成文本輸出,適用於圖像字幕生成、視覺問答等多種任務。

模型特點

多模態處理能力
同時處理圖像和文本輸入,生成文本輸出
多語言支持
支持多種語言的視覺語言任務
高分辨率適應
支持224x224和448x448兩種分辨率輸入
負責任AI
訓練數據經過嚴格過濾,移除不安全內容

模型能力

圖像字幕生成
視覺問答
文本閱讀
目標檢測
圖像分割
多語言處理

使用案例

內容理解
圖像描述生成
為輸入圖像生成詳細描述
在COCO-35L數據集上英語字幕CIDEr得分142.4
視覺問答
回答關於圖像內容的問題
在AOKVQA-DA驗證集上準確率70.2%
文檔處理
文檔問答
從文檔圖像中提取信息回答問題
在DocVQA驗證集上準確率76.1%
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase