P

Paligemma 3b Pt 224

由google開發
PaliGemma是一款多功能輕量級視覺語言模型(VLM),基於SigLIP視覺模型和Gemma語言模型構建,能同時處理圖像和文本輸入並生成文本輸出。
下載量 38.40k
發布時間 : 5/12/2024

模型概述

PaliGemma是一款30億參數的視覺語言模型,專為各類視覺語言任務設計,包括圖像描述、視覺問答、文本閱讀、目標檢測和分割等。

模型特點

輕量級設計
僅30億參數,適合資源有限環境部署
多任務支持
通過任務前綴配置可支持問答、檢測、分割等多種視覺語言任務
多語言能力
支持多種語言的文本生成和理解
開放組件
基於SigLIP和Gemma等開放模型構建

模型能力

圖像描述生成
視覺問答
文本閱讀
目標檢測
圖像分割
多語言文本生成

使用案例

輔助技術
盲人視覺輔助
為視障人士描述圖像內容
內容審核
圖像內容分析
自動識別和描述圖像中的對象和場景
教育
多語言學習輔助
生成不同語言的圖像描述輔助語言學習
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase