多模態視覺語言

# 多模態視覺語言

Qwen2.5 VL 7B Instruct Gemlite Ao A8w8

這是一個經過A8W8量化的多模態大語言模型，基於Qwen2.5-VL-7B-Instruct，支持視覺和語言任務。

圖像生成文本

Llava 1.5 13b Hf I1 GGUF

該項目提供了llava-1.5-13b-hf模型的加權/矩陣量化版本，包含多種量化類型選擇，適用於不同場景下的使用需求。

文本生成圖像

Transformers 英語

Spaceqwen2.5 VL 3B Instruct I1 GGUF

SpaceQwen2.5-VL-3B-Instruct是一個3B參數的視覺語言模型，專注於空間推理和多模態任務。

文本生成圖像英語

Qwen.qwen2.5 VL 72B Instruct GGUF

Qwen2.5-VL-72B-Instruct是通義千問團隊開發的大規模視覺語言模型，支持圖像和文本的多模態理解與生成。

圖像生成文本

VLM R1 Qwen2.5VL 3B OVD 0321

基於Qwen2.5-VL-3B-Instruct的零樣本目標檢測模型，通過VLM-R1強化學習增強，支持開放詞彙檢測任務。

文本生成圖像英語

鷹隼2號是一個高性能視覺語言模型家族，專注於數據策略和訓練方案的透明性，旨在推動開源社區開發具有競爭力的視覺語言模型。

圖像生成文本

Transformers 其他

Eagle2是NVIDIA推出的高性能視覺語言模型家族，專注於通過數據策略和訓練方案提升開源視覺語言模型的性能。Eagle2-2B是該系列中的輕量級模型，在保持強勁性能的同時實現卓越效率和速度。

文本生成圖像

Transformers 其他

Qwen2 VL 7B GGUF

Qwen2-VL-7B 是一個視覺語言模型，提供多種量化版本的 GGUF 格式模型文件，適用於 llama.cpp 使用。

文本生成圖像

Transformers 英語

Qwen2 VL 2B GGUF

Qwen2-VL-2B 是一個視覺語言模型，提供 GGUF 格式的量化版本，適用於多種場景。

文本生成圖像

Transformers 英語

Minivla Libero90 Prismatic

MiniVLA是一個10億參數規模的視覺語言模型，與稜鏡視覺語言模型項目代碼庫兼容，適用於機器人技術和多模態任務。

圖像生成文本

Transformers 英語

Paligemma2 28b Mix 224

PaliGemma 2是Google推出的升級版視覺語言模型，結合Gemma 2和SigLIP視覺模型能力，支持多語言圖像文本交互任務。

圖像生成文本

Paligemma2 28b Mix 448

PaliGemma 2是基於Gemma 2的視覺語言模型，支持圖像+文本輸入，輸出文本響應，適用於多種視覺語言任務。

圖像生成文本

Paligemma2 10b Pt 896

PaliGemma 2是Google推出的視覺語言模型(VLM)，融合Gemma 2能力，支持圖像和文本輸入生成文本輸出

圖像生成文本

Paligemma2 10b Pt 448

PaliGemma 2是Google推出的升級版視覺語言模型(VLM)，融合Gemma 2能力，支持圖像和文本輸入生成文本輸出。

圖像生成文本

Paligemma2 10b Pt 224

PaliGemma 2是一款視覺語言模型（VLM），結合了Gemma 2模型的能力，能夠同時處理圖像和文本輸入，並生成文本輸出，支持多種語言。適用於圖像和短視頻字幕、視覺問答、文本閱讀、目標檢測和目標分割等多種視覺語言任務。

圖像生成文本

Paligemma2 3b Pt 896

PaliGemma 2是一款多模態視覺語言模型，結合圖像和文本輸入生成文本輸出，支持多語言，適用於多種視覺語言任務。

圖像生成文本

Paligemma2 3b Pt 448

PaliGemma 2是基於Gemma 2的視覺語言模型，支持圖像和文本輸入，生成文本輸出，適用於多種視覺語言任務。

圖像生成文本

Paligemma2 3b Pt 224

PaliGemma 2是Google開發的視覺語言模型(VLM)，結合了Gemma 2語言模型和SigLIP視覺模型的能力，支持多語言視覺語言任務。

圖像生成文本

Paligemma2 10b Mix 224

PaliGemma 2是基於Gemma 2的視覺語言模型，支持圖像和文本輸入，生成文本輸出，適用於多種視覺語言任務。

圖像生成文本

Paligemma2 3b Mix 448

PaliGemma 2是基於Gemma 2的視覺語言模型，支持圖像與文本輸入，輸出生成文本，適用於多種視覺語言任務。

圖像生成文本

Paligemma2 10b Ft Docci 448

PaliGemma 2是Google推出的多功能視覺語言模型(VLM)，結合圖像和文本處理能力，支持多語言和多任務處理。

圖像生成文本

Paligemma2 3b Ft Docci 448

PaliGemma 2是Google推出的升級版視覺語言模型，結合Gemma 2和SigLIP視覺模型的能力，支持多語言視覺語言任務。

圖像生成文本

Llama 3.1 8B Dragonfly V2

蜻蜓是基於Llama 3.1通過指令微調訓練的多模態視覺語言模型，支持圖像與文本的聯合理解與生成

圖像生成文本英語

togethercomputer

OpenVLA v0.1 7B是一個開源視覺-語言-動作模型，基於Open X-Embodiment數據集訓練，支持多種機器人控制。

文本生成圖像

Transformers 英語

Paligemma 3b Ft Widgetcap 224

PaliGemma是一款多功能輕量級視覺語言模型，結合圖像和文本輸入生成文本輸出，支持多語言，在多種視覺語言任務中表現出色。

圖像生成文本

Paligemma 3b Ft Scicap 448

PaliGemma是一款多功能輕量級視覺語言模型，結合圖像和文本輸入生成文本輸出，支持多語言。

文本生成圖像

Paligemma 3b Ft Cococap 224

PaliGemma是一款多功能輕量級視覺語言模型（VLM），支持多語言輸入輸出，適用於多種視覺語言任務。

圖像生成文本

Paligemma 3b Pt 448

PaliGemma是一款輕量級多功能視覺語言模型，基於SigLIP視覺模型和Gemma語言模型構建，支持多語言圖像文本交互任務。

圖像生成文本

Paligemma 3b Pt 896

PaliGemma是一款多功能輕量級視覺語言模型(VLM)，支持圖像和文本輸入，生成文本輸出，具備多語言能力。

圖像生成文本

Paligemma 3b Ft Nlvr2 224

PaliGemma是一款多功能輕量級視覺語言模型（VLM），支持多語言輸入輸出，擅長圖像字幕、視覺問答等多種視覺語言任務。

文本生成圖像

Paligemma 3b Ft Nlvr2 448

PaliGemma是一款多功能且輕量級的視覺語言模型（VLM），支持圖像和文本輸入，生成文本輸出，適用於多種視覺語言任務。

文本生成圖像

Paligemma 3b Ft Vqav2 224

PaliGemma是一款多功能輕量級視覺語言模型，結合圖像和文本輸入生成文本輸出，支持多語言。

文本生成圖像

Paligemma 3b Ft Refcoco Seg 896

PaliGemma是Google開發的輕量級視覺語言模型，基於SigLIP視覺模型和Gemma語言模型構建，支持多語言文本生成和視覺理解任務。

圖像生成文本

Paligemma 3b Mix 224

PaliGemma是一款多功能、輕量級的視覺語言模型(VLM)，基於SigLIP視覺模型和Gemma語言模型構建，支持圖像和文本輸入，輸出文本結果。

文本生成圖像

Paligemma 3b Ft Rsvqa Lr 224

PaliGemma是一款多功能輕量級視覺語言模型（VLM），結合圖像和文本輸入生成文本輸出，支持多語言。

文本生成圖像

Paligemma 3b Pt 224

PaliGemma是一款多功能輕量級視覺語言模型(VLM)，基於SigLIP視覺模型和Gemma語言模型構建，能同時處理圖像和文本輸入並生成文本輸出。

圖像生成文本

Paligemma 3b Ft Scicap 224

PaliGemma是一款輕量級視覺語言模型，結合圖像和文本輸入生成文本輸出，支持多語言和多任務處理。

圖像生成文本

Paligemma 3b Ft Ocrvqa 896

PaliGemma是一款多功能輕量級視覺語言模型，支持圖像和文本輸入，生成文本輸出，適用於多種視覺語言任務。

圖像生成文本

Paligemma 3b Ft Science Qa 224

PaliGemma是一款多功能輕量級視覺語言模型（VLM），支持圖像和文本輸入，生成文本輸出，適用於多種視覺語言任務。

文本生成圖像

Vitamin XL 384px

ViTamin-XL-384px 是一個基於 ViTamin 架構的大規模視覺語言模型，專為視覺語言任務設計，支持高分辨率圖像處理和多模態特徵提取。

圖像生成文本

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase