P

Paligemma 3b Ft Rsvqa Lr 224

由google開發
PaliGemma是一款多功能輕量級視覺語言模型(VLM),結合圖像和文本輸入生成文本輸出,支持多語言。
下載量 223
發布時間 : 5/12/2024

模型概述

PaliGemma基於開放組件構建,適用於多種視覺語言任務,如圖像和短視頻字幕、視覺問答、文本閱讀、目標檢測和目標分割等。

模型特點

多模態輸入
同時處理圖像和文本輸入,生成文本輸出
多任務支持
支持多種視覺語言任務,包括字幕生成、視覺問答、目標檢測和分割等
多語言能力
支持多種語言處理,適用於國際化應用場景
輕量級設計
30億參數的輕量級模型,適合多種部署場景

模型能力

圖像字幕生成
視覺問答
目標檢測
目標分割
多語言處理
文本閱讀

使用案例

內容生成
多語言圖像字幕
為圖像生成多種語言的描述性字幕
在COCO-35L數據集上CIDEr分數達141.2(英語)
視覺問答
複雜視覺問題回答
回答關於圖像內容的複雜問題
在VQAv2測試集上準確率達85.64%
文檔分析
文檔視覺問答
從文檔圖像中提取信息並回答問題
在DocVQA測試集上ANLS達84.77
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase