P

Paligemma 3b Ft Ocrvqa 448

由google開發
PaliGemma是Google開發的多功能輕量級視覺語言模型(VLM),基於SigLIP視覺模型和Gemma語言模型構建,支持圖像和文本輸入,輸出文本結果。
下載量 365
發布時間 : 5/12/2024

模型概述

基於448*448輸入圖像在OCR-VQA數據集上微調的3B參數模型,專為視覺語言任務設計,如圖像字幕生成、視覺問答、文本閱讀等。

模型特點

輕量級多功能
僅30億參數卻具備多種視覺語言任務處理能力
多分辨率支持
支持224/448/896等多種輸入分辨率,適應不同任務需求
任務前綴配置
通過任務前綴(如'detect'或'segment')靈活配置模型處理任務
負責任數據過濾
訓練數據經過嚴格的內容安全和個人信息過濾

模型能力

圖像字幕生成
視覺問答
文本閱讀
目標檢測
圖像分割
多語言處理

使用案例

文檔處理
OCR-VQA
基於圖像中的文本內容回答問題
測試準確率74.93%(896分辨率)
DocVQA
文檔圖像問答
ANLS 84.77(896分辨率)
通用視覺理解
圖像字幕生成
為圖像生成多語言描述
COCO數據集CIDEr 144.60(448分辨率)
視覺問答
回答關於圖像內容的問題
VQAv2測試準確率85.64%
專業領域
科學圖表理解
解析科學圖表內容
SciCap測試CIDEr 181.49
遙感圖像分析
回答關於遙感圖像的問題
RSVQA-HR測試準確率92.79%
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase