P

Paligemma 3b Mix 224

由google開發
PaliGemma是一款多功能、輕量級的視覺語言模型(VLM),基於SigLIP視覺模型和Gemma語言模型構建,支持圖像和文本輸入,輸出文本結果。
下載量 143.03k
發布時間 : 5/12/2024

模型概述

PaliGemma接受圖像和文本作為輸入並生成文本輸出,支持多種語言。設計用於廣泛的視覺語言任務,如圖像描述、視覺問答、文本閱讀、目標檢測和分割等。

模型特點

多任務支持
通過任務前綴配置可解決多種視覺語言任務,如檢測、分割、問答等
輕量級設計
僅30億參數的緊湊模型,適合多種應用場景
多語言能力
支持多種語言的文本生成和理解
負責任AI
訓練數據經過嚴格過濾,移除了不安全、有毒和敏感內容

模型能力

圖像描述生成
視覺問答
文本閱讀
目標檢測
目標分割
多語言文本生成

使用案例

內容理解
圖像描述生成
為輸入圖像生成描述性文本
在COCO描述驗證集上CIDEr得分144.60(448分辨率)
智能交互
視覺問答
回答關於圖像內容的問題
計算機視覺
目標檢測
檢測圖像中的目標並輸出邊界框座標
圖像分割
對圖像中的目標進行分割
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase