P

Paligemma 3b Ft Scicap 224

由google開發
PaliGemma是一款輕量級視覺語言模型,結合圖像和文本輸入生成文本輸出,支持多語言和多任務處理。
下載量 107
發布時間 : 5/12/2024

模型概述

PaliGemma是一款受PaLI-3啟發的多功能視覺語言模型,基於開放組件構建,適用於圖像字幕、視覺問答、文本閱讀、目標檢測和分割等多種任務。

模型特點

多模態輸入
支持同時處理圖像和文本輸入,生成文本輸出。
多語言支持
能夠處理多種語言的輸入和輸出,適用於國際化應用場景。
輕量級設計
基於開放組件構建,參數規模適中,適合資源有限的環境。
多功能任務處理
支持多種視覺語言任務,包括問答、字幕生成、分割等。

模型能力

圖像字幕生成
視覺問答
目標檢測
目標分割
多語言文本生成

使用案例

圖像理解
圖像字幕生成
為圖像生成描述性字幕,支持多種語言。
生成準確且符合圖像內容的字幕。
視覺問答
回答關於圖像內容的自然語言問題。
提供準確且相關的答案。
目標檢測與分割
目標檢測
識別圖像中的目標並返回其邊界框座標。
精確的目標定位。
目標分割
對圖像中的目標進行像素級分割。
生成精確的分割掩碼。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase