P

Paligemma 3b Pt 448

由google開發
PaliGemma是一款輕量級多功能視覺語言模型,基於SigLIP視覺模型和Gemma語言模型構建,支持多語言圖像文本交互任務。
下載量 2,708
發布時間 : 5/13/2024

模型概述

PaliGemma接受圖像和文本輸入並生成文本輸出,專為圖像描述、視覺問答、文本閱讀、目標檢測和分割等視覺語言任務設計,需通過微調實現最佳性能。

模型特點

輕量級高效架構
僅30億參數卻實現多功能視覺語言理解,適合資源有限場景部署。
多任務適配設計
通過任務前綴(如'detect'或'segment')靈活配置不同視覺語言任務。
負責任數據過濾
預訓練數據經過色情過濾、毒性檢測等多層安全過濾,符合AI倫理標準。

模型能力

圖像描述生成
視覺問答
文檔文本理解
目標檢測座標輸出
圖像分割代碼生成
多語言文本生成

使用案例

內容理解
多語言圖像描述
輸入圖像生成西班牙語等34種語言的描述文本
輸出示例:'Un auto azul estacionado frente a un edificio.'
文檔信息提取
從掃描文檔或照片中提取結構化文本信息
在DocVQA基準測試ANLS達84.77(896px版本)
工業檢測
缺陷定位標註
通過'detect'前綴生成產品缺陷的邊界框座標
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase