目標檢測分割

# 目標檢測分割

Paligemma2 3b Mix 224 Jax

PaliGemma 2是基於Gemma 2的升級版視覺語言模型，支持多語言圖文輸入與文本輸出，專為視覺語言任務設計

文本生成圖像

Paligemma2 28b Mix 448

PaliGemma 2是基於Gemma 2的視覺語言模型，支持圖像+文本輸入，輸出文本響應，適用於多種視覺語言任務。

圖像生成文本

Paligemma2 10b Pt 224

PaliGemma 2是一款視覺語言模型（VLM），結合了Gemma 2模型的能力，能夠同時處理圖像和文本輸入，並生成文本輸出，支持多種語言。適用於圖像和短視頻字幕、視覺問答、文本閱讀、目標檢測和目標分割等多種視覺語言任務。

圖像生成文本

Paligemma2 3b Pt 896

PaliGemma 2是一款多模態視覺語言模型，結合圖像和文本輸入生成文本輸出，支持多語言，適用於多種視覺語言任務。

圖像生成文本

Paligemma2 3b Pt 224

PaliGemma 2是Google開發的視覺語言模型(VLM)，結合了Gemma 2語言模型和SigLIP視覺模型的能力，支持多語言視覺語言任務。

圖像生成文本

Paligemma2 10b Mix 224

PaliGemma 2是基於Gemma 2的視覺語言模型，支持圖像和文本輸入，生成文本輸出，適用於多種視覺語言任務。

圖像生成文本

Paligemma2 3b Mix 448

PaliGemma 2是基於Gemma 2的視覺語言模型，支持圖像與文本輸入，輸出生成文本，適用於多種視覺語言任務。

圖像生成文本

Paligemma2 3b Mix 224

PaliGemma 2是Google開發的升級版視覺語言模型，結合了Gemma 2的能力，支持圖像和文本輸入，生成文本輸出，適用於多種視覺語言任務。

圖像生成文本

Florence 2 Large No Flash Attn

Florence-2是微軟開發的先進視覺基礎模型，採用基於提示的方法處理多樣化視覺任務，通過統一表徵實現圖像描述、目標檢測等多種功能。

文本生成圖像

Florence 2 Base Ft

Florence-2是微軟開發的先進視覺基礎模型，採用基於提示的方法處理廣泛的視覺和視覺語言任務。

圖像生成文本

Paligemma 3b Ft Widgetcap 224

PaliGemma是一款多功能輕量級視覺語言模型，結合圖像和文本輸入生成文本輸出，支持多語言，在多種視覺語言任務中表現出色。

圖像生成文本

Paligemma 3b Ft Scicap 448

PaliGemma是一款多功能輕量級視覺語言模型，結合圖像和文本輸入生成文本輸出，支持多語言。

文本生成圖像

Paligemma 3b Ft Cococap 224

PaliGemma是一款多功能輕量級視覺語言模型（VLM），支持多語言輸入輸出，適用於多種視覺語言任務。

圖像生成文本

Paligemma 3b Pt 448

PaliGemma是一款輕量級多功能視覺語言模型，基於SigLIP視覺模型和Gemma語言模型構建，支持多語言圖像文本交互任務。

圖像生成文本

Paligemma 3b Ft Nlvr2 224

PaliGemma是一款多功能輕量級視覺語言模型（VLM），支持多語言輸入輸出，擅長圖像字幕、視覺問答等多種視覺語言任務。

文本生成圖像

Paligemma 3b Mix 448

PaliGemma是一款多功能輕量級視覺語言模型(VLM)，基於SigLIP視覺模型和Gemma語言模型構建，支持圖像和文本輸入並生成文本輸出

圖像生成文本

Paligemma 3b Ft Nlvr2 448

PaliGemma是一款多功能且輕量級的視覺語言模型（VLM），支持圖像和文本輸入，生成文本輸出，適用於多種視覺語言任務。

文本生成圖像

Paligemma 3b Ft Vqav2 224

PaliGemma是一款多功能輕量級視覺語言模型，結合圖像和文本輸入生成文本輸出，支持多語言。

文本生成圖像

Paligemma 3b Ft Docvqa 896

PaliGemma是Google開發的輕量級視覺語言模型，基於SigLIP視覺模型和Gemma語言模型構建，支持多語言圖像文本理解與生成。

圖像生成文本

Paligemma 3b Ft Scicap 224

PaliGemma是一款輕量級視覺語言模型，結合圖像和文本輸入生成文本輸出，支持多語言和多任務處理。

圖像生成文本

Paligemma 3b Ft Vqav2 448

PaliGemma是Google開發的輕量級視覺語言模型，結合圖像理解和文本生成能力，支持多語言任務。

文本生成圖像

Paligemma 3b Ft Ocrvqa 896

PaliGemma是一款多功能輕量級視覺語言模型，支持圖像和文本輸入，生成文本輸出，適用於多種視覺語言任務。

圖像生成文本

Paligemma 3b Ft Science Qa 224

PaliGemma是一款多功能輕量級視覺語言模型（VLM），支持圖像和文本輸入，生成文本輸出，適用於多種視覺語言任務。

文本生成圖像

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase