P

Paligemma 3b Ft Science Qa 224

由google開發
PaliGemma是一款多功能輕量級視覺語言模型(VLM),支持圖像和文本輸入,生成文本輸出,適用於多種視覺語言任務。
下載量 113
發布時間 : 5/12/2024

模型概述

PaliGemma是一款基於開放組件構建的視覺語言模型,結合了SigLIP視覺模型和Gemma語言模型,支持多語言處理,適用於圖像字幕、視覺問答、文本閱讀、目標檢測和分割等任務。

模型特點

多功能性
支持多種視覺語言任務,如問答、字幕生成、分割等。
多語言支持
能夠處理多種語言的輸入和輸出。
輕量級設計
基於開放組件構建,易於使用和部署。
高性能微調
在特定任務上進行微調時表現最佳。

模型能力

圖像字幕生成
視覺問答
目標檢測
目標分割
多語言文本生成

使用案例

圖像處理
圖像字幕生成
為圖像生成描述性字幕,支持多種語言。
生成準確且多語言的圖像描述。
目標檢測
檢測圖像中的目標並返回其邊界框座標。
高精度的目標定位。
問答系統
視覺問答
回答關於圖像內容的自然語言問題。
準確回答與圖像相關的問題。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase