P

Paligemma2 10b Pt 224

由google開發
PaliGemma 2是一款視覺語言模型(VLM),結合了Gemma 2模型的能力,能夠同時處理圖像和文本輸入,並生成文本輸出,支持多種語言。適用於圖像和短視頻字幕、視覺問答、文本閱讀、目標檢測和目標分割等多種視覺語言任務。
下載量 3,362
發布時間 : 11/21/2024

模型概述

PaliGemma 2是PaliGemma視覺語言模型的更新版本,融合了Gemma 2模型的能力。它基於開放組件構建,如SigLIP視覺模型和Gemma 2語言模型,旨在在廣泛的視覺語言任務上實現領先的微調性能。

模型特點

多模態處理
能夠同時處理圖像和文本輸入,並生成文本輸出。
多語言支持
支持多種語言,適用於不同地區的用戶。
高性能微調
設計用於在各種視覺語言任務上實現領先的微調性能。
開放組件構建
基於SigLIP視覺模型和Gemma 2語言模型構建,具有高度的靈活性和可擴展性。

模型能力

圖像字幕生成
視覺問答
文本閱讀
目標檢測
目標分割
多語言處理

使用案例

圖像和視頻理解
圖像字幕生成
為圖像生成描述性字幕。
在COCO-35L數據集上,英語字幕得分為142.4(10B模型)。
短視頻字幕
為短視頻生成描述性字幕。
在ActivityNet-CAP數據集上得分為35.9(10B模型)。
視覺問答
開放知識視覺問答
回答需要外部知識的視覺問題。
在AOKVQA-DA驗證集上得分為68.9(10B模型)。
科學問題回答
回答科學相關視覺問題。
在ScienceQA數據集上準確率達98.2%(10B模型)。
文檔處理
文檔問答
回答基於文檔圖像的問題。
在DocVQA驗證集上得分為43.9(224分辨率10B模型)。
表格理解
解析和理解表格圖像。
在FinTabNet數據集上TEDS得分為98.94(3B模型)。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase