# 多模態視覺理解

Gemma 3 12b It Quantized.w8a8
基於google/gemma-3-12b-it的INT8量化版本,支持視覺文本輸入和文本輸出,適用於高效推理部署
圖像生成文本 Transformers
G
RedHatAI
237
1
Qwen2.5 VL 3B Instruct GGUF
Qwen2.5-VL是Qwen家族的最新視覺語言模型,具備強大的視覺理解和多模態處理能力。
圖像生成文本 英語
Q
unsloth
4,645
4
PE Lang G14 448
Apache-2.0
感知編碼器是通過視覺語言訓練實現的最先進圖像視頻理解編碼器,具有強大的泛化能力。
文本生成圖像
P
facebook
247
11
PE Lang L14 448
Apache-2.0
感知編碼器(PE)是一種通過視覺-語言學習訓練而成的先進圖像與視頻理解編碼器,在多種視覺任務上具有最先進性能。
文本生成圖像
P
facebook
1,087
6
Space Model
Apache-2.0
Qwen2.5-VL-32B-Instruct是Qwen家族的最新視覺語言模型,具備強大的視覺理解和智能代理能力,支持多模態任務處理。
圖像生成文本 Transformers 支持多種語言
S
Alhdrawi
58
1
Qwen2.5 VL 7B Instruct GGUF
Apache-2.0
Qwen2.5-VL-7B-Instruct 是一個多模態視覺語言模型,支持圖像理解和文本生成任務。
圖像生成文本 英語
Q
Mungert
17.10k
10
Qwen2.5 VL 32B Instruct Exl2 4 25bpw
Apache-2.0
Qwen2.5-VL-32B-Instruct 是 Qwen 家族的最新視覺語言模型,具備強大的多模態理解和生成能力,支持圖像、視頻和文本的交互。
文本生成圖像 Transformers 英語
Q
christopherthompson81
68
3
Amoral Gemma3 12B Vision
基於soob3123/amoral-gemma3-12B的視覺增強版本,結合了Gemma3-12B大語言模型與視覺編碼器,支持多模態任務
圖像生成文本 Transformers 英語
A
gghfez
25
2
Qwen2.5 VL Instruct 3B Geo
Apache-2.0
Qwen2.5-VL是Qwen家族的最新視覺語言模型,專注於增強視覺理解和代理能力。
文本生成圖像 Transformers 英語
Q
kxxinDave
29
2
Mlabonne Gemma 3 4b It Abliterated GGUF
這是一個基於mlabonne/gemma-3-4b-it-abliterated模型的量化版本,使用llama.cpp進行imatrix量化,適用於圖像文本到文本任務。
圖像生成文本
M
bartowski
9,164
8
Toriigate V0.4 7B I1 GGUF
Apache-2.0
這是對Minthy/ToriiGate-v0.4-7B模型進行的加權/重要性矩陣量化版本,提供多種量化選項以適應不同需求。
圖像生成文本 英語
T
mradermacher
410
1
Qwen2.5 VL 72B Instruct AWQ Fix
其他
Qwen2.5-VL 是 Qwen 家族的最新視覺語言模型,具備強大的視覺理解和代理能力,支持多格式視覺定位和結構化輸出生成。
圖像生成文本 Transformers 英語
Q
Benasd
94
1
Qwen2.5 VL 72B Instruct AWQ
其他
Qwen2.5-VL是通義千問團隊推出的多模態大語言模型,具備強大的視覺理解和智能代理能力,支持圖像、視頻、文本等多種輸入格式。
文本生成圖像 Transformers 英語
Q
Benasd
173
6
Qwen2.5 VL 7B Instruct AWQ
Apache-2.0
Qwen2.5-VL是通義千問推出的多模態視覺語言模型,具備強大的圖像理解和文本生成能力。
圖像生成文本 Transformers 英語
Q
Benasd
226
7
Minicpm O 2 6 Gguf
MiniCPM-o 2.6是一個多模態模型,支持視覺和語言任務,專為llama.cpp設計。
圖像生成文本
M
openbmb
5,660
101
Razorback 12B V0.2
其他
Razorback 12B v0.2 是一個結合了Pixtral 12B和UnslopNemo v3優勢的多模態模型,具備視覺理解和語言處理能力。
圖像生成文本 Transformers 支持多種語言
R
nintwentydo
17
3
Qwen2 VL 72B Instruct GGUF
其他
Qwen2-VL-72B-Instruct的GGUF量化版本,支持多模態圖像文本到文本轉換,可通過LlamaEdge運行。
圖像生成文本 Transformers 英語
Q
second-state
221
0
Llama 3.2 90B Vision Instruct Unsloth Bnb 4bit
Meta Llama 3.2系列90B參數的多模態大語言模型,支持視覺指令理解,經Unsloth動態4位量化優化
文本生成圖像 Transformers 英語
L
unsloth
58
2
Minicpm V 2 6 Rk3588 1.1.4
MiniCPM-V 2.6是支持單圖、多圖和視頻理解的GPT-4V級別多模態大語言模型,專為RK3588 NPU優化
圖像生成文本 Transformers 其他
M
c01zaut
31
3
Cambrian 8b
Apache-2.0
寒武紀是一個開源的以視覺為核心設計的 multimodal LLM(多模態大語言模型)。
文本生成圖像 Transformers
C
nyu-visionx
565
63
Phi 3 Vision 128k Instruct
MIT
Phi-3-Vision-128K-Instruct是一個輕量級、前沿的開放多模態模型,支持128K令牌的上下文長度,專注於文本和視覺領域的高質量推理。
圖像生成文本 Transformers 其他
P
microsoft
25.19k
958
Llava Phi 3 Mini 4k Instruct
MIT
結合Phi-3-mini-3.8B大語言模型與LLaVA v1.5的視覺語言模型,提供先進的視覺語言理解能力。
圖像生成文本 Transformers
L
MBZUAI
550
22
Owlv2 Base Patch16
OWLv2是一個基於視覺語言預訓練的模型,專注於對象檢測和定位任務。
目標檢測 Transformers
O
Xenova
17
0
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase