P

Paligemma2 28b Pt 896

由google開發
PaliGemma 2是Google推出的視覺語言模型(VLM),融合Gemma 2語言模型和SigLIP視覺模型能力,支持圖像和文本輸入生成文本輸出。
下載量 116
發布時間 : 11/22/2024

模型概述

基於開放組件的多功能視覺語言模型,支持圖像描述、視覺問答、文本閱讀、目標檢測和分割等多種視覺語言任務。

模型特點

多模態處理能力
同時處理圖像和文本輸入,生成連貫的文本輸出
高分辨率支持
支持896×896高分辨率圖像輸入,提升細節識別能力
多任務適應性
可通過微調適應多種視覺語言任務,如圖像描述、視覺問答等
負責任AI設計
訓練數據經過嚴格過濾,減少偏見和有害內容

模型能力

圖像描述生成
視覺問答
文本閱讀
目標檢測
圖像分割
多語言處理

使用案例

內容理解與生成
自動圖像標註
為圖像生成詳細描述文本
在COCO-35L數據集上英語描述得分142.4
視覺問答系統
回答關於圖像內容的自然語言問題
在VQAv2數據集上達到85.8分
文檔處理
文檔視覺問答
從掃描文檔中提取信息並回答問題
在DocVQA數據集上達到76.1分
表格理解
解析表格圖像並提取結構化數據
在FinTabNet數據集上TEDS得分98.94
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase