P

Paligemma 3b Ft Refcoco Seg 896

由google開發
PaliGemma是Google開發的輕量級視覺語言模型,基於SigLIP視覺模型和Gemma語言模型構建,支持多語言文本生成和視覺理解任務。
下載量 20
發布時間 : 5/12/2024

模型概述

多功能視覺語言模型,接受圖像和文本輸入生成文本輸出,支持圖像描述、視覺問答、目標檢測和分割等任務。

模型特點

輕量級設計
僅30億參數規模,適合在各類硬件上部署運行
多任務支持
通過任務前綴配置可支持問答、字幕、分割等多種視覺語言任務
多語言能力
支持多種語言的文本生成和理解
高分辨率處理
支持最高896×896像素的輸入圖像分辨率

模型能力

圖像描述生成
視覺問答
目標檢測
圖像分割
多語言文本生成
文本閱讀理解

使用案例

計算機視覺
圖像字幕生成
為輸入圖像生成多語言描述
在COCO字幕驗證集上CIDEr得分144.60
視覺問答
回答關於圖像內容的自然語言問題
在VQAv2測試集上準確率85.64
文檔處理
文檔問答
理解文檔圖像內容並回答問題
在DocVQA測試集上ANLS得分84.77
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase