P

Paligemma 3b Ft Vqav2 224

由google開發
PaliGemma是一款多功能輕量級視覺語言模型,結合圖像和文本輸入生成文本輸出,支持多語言。
下載量 150
發布時間 : 5/12/2024

模型概述

PaliGemma專為視覺語言任務的微調性能而設計,可用於圖像和短視頻字幕、視覺問答、文本閱讀、目標檢測和目標分割等多種場景。

模型特點

多功能性
結合圖像和文本輸入,生成文本輸出,支持多語言。
輕量級
基於開放組件構建,易於使用和部署。
高性能
在多種視覺語言任務上表現出色,如問答、字幕生成、分割等。

模型能力

圖像字幕生成
視覺問答
目標檢測
目標分割
多語言支持

使用案例

圖像處理
圖像字幕生成
為圖像生成描述性字幕,支持多語言。
在COCO captions驗證集上CIDEr得分為141.92(224分辨率)
目標檢測
檢測圖像中的目標並生成邊界框座標。
問答系統
視覺問答
回答關於圖像內容的問題。
在VQAv2測試集上準確率為83.19%(224分辨率)
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase