P

Paligemma 3b Ft Nlvr2 448

Developed by google
PaliGemma是一款多功能且輕量級的視覺語言模型(VLM),支持圖像和文本輸入,生成文本輸出,適用於多種視覺語言任務。
Downloads 2,350
Release Time : 5/13/2024

Model Overview

PaliGemma基於開放組件構建,如SigLIP視覺模型和Gemma語言模型,專為圖像和短視頻字幕、視覺問答、文本閱讀、目標檢測和分割等任務設計,支持多語言。

Model Features

多功能性
能夠處理多種視覺語言任務,包括圖像和短視頻字幕、視覺問答、文本閱讀、目標檢測和目標分割。
輕量級
基於開放組件構建,具有高效的性能。
多語言支持
支持多種語言的輸入和輸出。

Model Capabilities

圖像字幕生成
視覺問答
文本閱讀
目標檢測
目標分割

Use Cases

圖像理解
圖像字幕生成
為圖像生成描述性字幕,支持多種語言。
生成準確且多樣化的圖像描述。
視覺問答
回答關於圖像內容的自然語言問題。
在GQA數據集上達到65.47%的準確率。
目標檢測與分割
目標檢測
檢測圖像中的目標並生成邊界框座標。
在OpenImages數據集上表現優異。
目標分割
對圖像中的目標進行像素級分割。
生成精確的分割碼字。
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase