P

Paligemma2 10b Ft Docci 448

由google開發
PaliGemma 2是Google推出的多功能視覺語言模型(VLM),結合圖像和文本處理能力,支持多語言和多任務處理。
下載量 2,207
發布時間 : 11/21/2024

模型概述

PaliGemma 2是基於Gemma 2架構的視覺語言模型,能夠同時處理圖像和文本輸入,生成文本輸出。該模型在多種視覺語言任務上表現出色,如圖像描述、視覺問答、文本閱讀等。

模型特點

多模態處理
能夠同時處理圖像和文本輸入,生成文本輸出
多語言支持
支持多種語言,適用於不同地區的用戶
高性能微調
在多種視覺語言任務上具有出色的微調性能
高分辨率支持
支持448*448高分辨率輸入圖像處理

模型能力

圖像描述生成
視覺問答
目標檢測
目標分割
文本閱讀
多語言處理

使用案例

圖像理解
圖像描述生成
為輸入圖像生成詳細的文字描述
在COCO-35L數據集上英語描述得分142.4
視覺問答
回答關於圖像內容的自然語言問題
在VQAv2數據集上準確率85.8%
文檔處理
文檔問答
從文檔圖像中提取信息回答問題
在DocVQA數據集上準確率76.6%
表格理解
解析和理解表格內容
在FinTabNet數據集上TEDS得分98.94
醫療影像
醫學影像報告生成
根據醫學影像生成診斷報告
在MIMIC-CXR數據集上Rouge-L得分32.41%
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase