P

Paligemma2 3b Ft Docci 448

由google開發
PaliGemma 2是Google推出的升級版視覺語言模型,結合Gemma 2和SigLIP視覺模型的能力,支持多語言視覺語言任務。
下載量 8,765
發布時間 : 11/21/2024

模型概述

PaliGemma 2是基於Gemma 2和SigLIP視覺模型的視覺語言模型,接受圖像和文本輸入,生成文本輸出,適用於圖像字幕生成、視覺問答等多種任務。

模型特點

多模態輸入
支持同時處理圖像和文本輸入,實現視覺語言聯合理解。
多任務適應
可微調用於圖像字幕、視覺問答、目標檢測等多種視覺語言任務。
多語言支持
訓練數據涵蓋多種語言,支持多語言文本生成。
高效架構
結合SigLIP視覺編碼器和Gemma 2文本解碼器,實現高效視覺語言處理。

模型能力

圖像字幕生成
視覺問答
文本閱讀
目標檢測
圖像分割
多語言文本生成

使用案例

內容生成
圖像描述生成
為圖像生成詳細的文字描述
生成符合圖像內容的自然語言描述
短視頻字幕
為短視頻生成字幕
準確描述視頻內容的字幕
問答系統
視覺問答
回答關於圖像內容的問題
準確回答基於圖像的問題
計算機視覺
目標檢測
檢測圖像中的物體並定位
輸出物體邊界框座標
圖像分割
對圖像進行語義分割
輸出分割編碼詞
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase