P

Paligemma2 10b Mix 448

由google開發
PaliGemma 2是基於Gemma 2的視覺語言模型,支持圖像和文本輸入,生成文本輸出,適用於多種視覺語言任務。
下載量 31.63k
發布時間 : 11/21/2024

模型概述

PaliGemma 2是對PaliGemma視覺語言模型的更新,整合了Gemma 2模型的能力,支持圖像標題生成、視覺問答、文本閱讀、對象檢測和分割等多種任務。

模型特點

多任務支持
支持圖像標題生成、視覺問答、文本閱讀、對象檢測和分割等多種視覺語言任務。
多語言能力
支持多種語言的文本生成和理解。
高分辨率處理
支持448x448輸入圖像分辨率,提升視覺任務的準確性。
負責任AI
應用了多種數據過濾方法,確保訓練數據的安全性和負責任性。

模型能力

圖像標題生成
視覺問答
光學字符識別
對象檢測
圖像分割
多語言文本生成

使用案例

內容生成
圖像標題生成
為圖像生成短標題或詳細描述。
在COCO-35L數據集上達到142.4 CIDEr分數(英語)
視頻標題生成
為短視頻生成描述性標題。
視覺理解
視覺問答
回答關於圖像內容的自然語言問題。
在AOKVQA-DA驗證集上達到70.8準確率
文本閱讀
從圖像中識別和提取文本內容。
在DocVQA驗證集上達到76.6準確率
計算機視覺
對象檢測
檢測圖像中的對象並返回邊界框座標。
圖像分割
定位圖像中對象佔據的區域並生成分割掩碼。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase