P

Paligemma 3b Ft Cococap 224

由google開發
PaliGemma是一款多功能輕量級視覺語言模型(VLM),支持多語言輸入輸出,適用於多種視覺語言任務。
下載量 209
發布時間 : 5/13/2024

模型概述

PaliGemma基於開放組件構建,結合了SigLIP視覺模型和Gemma語言模型,能夠處理圖像和短視頻字幕、視覺問答、文本閱讀、目標檢測和分割等任務。

模型特點

多功能性
能夠處理多種視覺語言任務,如問答、字幕生成、分割等。
多語言支持
支持多種語言的輸入和輸出。
輕量級設計
模型參數相對較少,便於在不同設備上進行研究和應用。

模型能力

圖像字幕生成
視覺問答
文本閱讀
目標檢測
目標分割

使用案例

多媒體處理
圖像字幕生成
為圖像或短視頻生成多語言字幕。
生成準確描述圖像內容的字幕
視覺問答
回答關於圖像內容的自然語言問題。
提供準確的問題答案
計算機視覺
目標檢測
檢測圖像中的目標並輸出邊界框座標。
精確識別和定位圖像中的目標
目標分割
對圖像中的目標進行像素級分割。
生成精確的目標分割掩碼
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase