P

Paligemma2 3b Mix 224

由google開發
PaliGemma 2是Google開發的升級版視覺語言模型,結合了Gemma 2的能力,支持圖像和文本輸入,生成文本輸出,適用於多種視覺語言任務。
下載量 15.23k
發布時間 : 11/21/2024

模型概述

PaliGemma 2是基於SigLIP視覺模型和Gemma 2語言模型構建的視覺語言模型,支持圖像描述、視覺問答、文本閱讀、目標檢測與分割等任務。

模型特點

多任務支持
支持圖像描述、視覺問答、文本閱讀、目標檢測與分割等多種視覺語言任務。
多語言能力
支持多種語言的文本生成和問答任務。
高分辨率輸入
支持224×224和448×448兩種分辨率輸入,適應不同任務需求。
開放組件構建
基於SigLIP視覺模型和Gemma 2語言模型等開放組件構建,便於研究和擴展。

模型能力

圖像描述
視覺問答
文本閱讀
目標檢測
圖像分割
多語言文本生成

使用案例

圖像理解
圖像描述生成
生成圖像的短描述或詳細描述,支持多種語言。
高質量的描述文本,適用於圖像標註和輔助視覺障礙用戶。
視覺問答
回答關於圖像內容的問題,支持多語言問答。
準確的答案生成,適用於教育、客服等場景。
文本識別
光學字符識別
識別圖像中的文本內容。
高精度的文本識別,適用於文檔數字化和自動化處理。
目標檢測與分割
目標檢測
檢測圖像中的目標並返回邊界框座標。
精確的目標定位,適用於自動駕駛、安防監控等場景。
圖像分割
生成目標區域的分割掩碼。
高質量的分割結果,適用於醫學影像分析、遙感圖像處理等。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase