P

Paligemma2 3b Mix 224 Jax

由google開發
PaliGemma 2是基於Gemma 2的升級版視覺語言模型,支持多語言圖文輸入與文本輸出,專為視覺語言任務設計
下載量 38
發布時間 : 2/3/2025

模型概述

整合SigLIP視覺模型和Gemma 2語言模型的開放組件,在圖像描述、視覺問答、文本閱讀、目標檢測與分割等任務上表現優異

模型特點

多任務統一架構
單一模型支持描述生成、問答、OCR、目標檢測與分割等多種視覺語言任務
多語言支持
通過CC3M-35L等數據集擴展支持34種語言的視覺語言理解
負責任AI設計
訓練數據經過色情/毒性/隱私等多重過濾,符合Google內容安全政策

模型能力

圖像描述生成
視覺問答
光學字符識別
目標檢測
圖像分割
多語言理解

使用案例

輔助技術
盲人視覺輔助
為視障用戶提供圖像內容描述
在AOKVQA驗證集達到64.2準確率
文檔處理
場景文本識別
從自然場景圖像中提取文本內容
ICDAR 2015基準F1值75.9
內容審核
圖像安全分析
檢測圖像中的敏感內容
通過人工評估符合安全閾值
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase