P

Paligemma 3b Pt 896

由google開發
PaliGemma是一款多功能輕量級視覺語言模型(VLM),支持圖像和文本輸入,生成文本輸出,具備多語言能力。
下載量 1,788
發布時間 : 5/13/2024

模型概述

PaliGemma專為廣泛的視覺語言任務設計,如圖像字幕、視覺問答、文本閱讀、目標檢測和分割等,旨在實現一流的微調性能。

模型特點

多功能性
支持圖像和文本輸入,能處理多種視覺語言任務
多語言支持
可處理多種語言的輸入和輸出
輕量級設計
模型參數適中,便於在不同場景下使用
高性能微調
專為在視覺語言任務中實現一流的微調性能而設計

模型能力

圖像字幕生成
視覺問答
文本閱讀
目標檢測
目標分割
多語言處理

使用案例

圖像理解
圖像字幕生成
為圖像生成描述性文字
在COCO字幕數據集上CIDEr得分144.60
視覺問答
回答關於圖像內容的問題
在VQAv2數據集上準確率85.64%
文檔處理
文檔問答
回答關於文檔內容的問題
在DocVQA數據集上ANLS得分84.77
文本閱讀
識別和理解圖像中的文本
在TextVQA數據集上準確率76.48%
計算機視覺
目標檢測
識別圖像中的物體並定位
目標分割
識別圖像中的物體並進行像素級分割
在RefCOCO數據集上MIoU最高76.94
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase