P

Paligemma2 3b Mix 224 Jax

Developed by google
PaliGemma 2是基於Gemma 2的升級版視覺語言模型,支持多語言圖文輸入與文本輸出,專為視覺語言任務設計
Downloads 38
Release Time : 2/3/2025

Model Overview

整合SigLIP視覺模型和Gemma 2語言模型的開放組件,在圖像描述、視覺問答、文本閱讀、目標檢測與分割等任務上表現優異

Model Features

多任務統一架構
單一模型支持描述生成、問答、OCR、目標檢測與分割等多種視覺語言任務
多語言支持
通過CC3M-35L等數據集擴展支持34種語言的視覺語言理解
負責任AI設計
訓練數據經過色情/毒性/隱私等多重過濾,符合Google內容安全政策

Model Capabilities

圖像描述生成
視覺問答
光學字符識別
目標檢測
圖像分割
多語言理解

Use Cases

輔助技術
盲人視覺輔助
為視障用戶提供圖像內容描述
在AOKVQA驗證集達到64.2準確率
文檔處理
場景文本識別
從自然場景圖像中提取文本內容
ICDAR 2015基準F1值75.9
內容審核
圖像安全分析
檢測圖像中的敏感內容
通過人工評估符合安全閾值
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase