P

Paligemma2 3b Pt 448

由google開發
PaliGemma 2是基於Gemma 2的視覺語言模型,支持圖像和文本輸入,生成文本輸出,適用於多種視覺語言任務。
下載量 3,412
發布時間 : 11/21/2024

模型概述

PaliGemma 2是對PaliGemma視覺語言模型的更新,融合了Gemma 2模型的能力,支持圖像和短視頻字幕生成、視覺問答、文本閱讀、目標檢測和分割等任務。

模型特點

多任務支持
支持多種視覺語言任務,包括圖像字幕生成、視覺問答、文本閱讀、目標檢測和分割。
多語言能力
支持多種語言的文本輸入和輸出,適用於國際化應用場景。
高分辨率處理
支持448*448輸入圖像,提高視覺任務的精度和細節處理能力。
負責任AI
訓練數據經過嚴格過濾,確保安全和負責任的數據使用。

模型能力

圖像字幕生成
視覺問答
文本閱讀
目標檢測
目標分割
多語言文本生成

使用案例

圖像理解
圖像描述生成
根據輸入圖像生成詳細的文本描述。
在COCO-35L數據集上英語描述得分142.4
視覺問答
回答關於圖像內容的自然語言問題。
在AOKVQA-DA驗證集上準確率71.2
文檔處理
文檔視覺問答
從文檔圖像中提取信息並回答問題。
在DocVQA驗證集上準確率76.1
圖表理解
解析圖表圖像並回答相關問題。
在ChartQA人工數據集上準確率66.4
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase