Gemma 3 12b It Quantized.w8a8
基於google/gemma-3-12b-it的INT8量化版本,支持視覺文本輸入和文本輸出,適用於高效推理部署
圖像生成文本
Transformers

G
RedHatAI
237
1
Qwen2.5 VL 3B Instruct GGUF
Qwen2.5-VL是Qwen家族的最新視覺語言模型,具備強大的視覺理解和多模態處理能力。
圖像生成文本 英語
Q
unsloth
4,645
4
PE Lang G14 448
Apache-2.0
感知編碼器是通過視覺語言訓練實現的最先進圖像視頻理解編碼器,具有強大的泛化能力。
文本生成圖像
P
facebook
247
11
PE Lang L14 448
Apache-2.0
感知編碼器(PE)是一種通過視覺-語言學習訓練而成的先進圖像與視頻理解編碼器,在多種視覺任務上具有最先進性能。
文本生成圖像
P
facebook
1,087
6
Space Model
Apache-2.0
Qwen2.5-VL-32B-Instruct是Qwen家族的最新視覺語言模型,具備強大的視覺理解和智能代理能力,支持多模態任務處理。
圖像生成文本
Transformers 支持多種語言

S
Alhdrawi
58
1
Qwen2.5 VL 7B Instruct GGUF
Apache-2.0
Qwen2.5-VL-7B-Instruct 是一個多模態視覺語言模型,支持圖像理解和文本生成任務。
圖像生成文本 英語
Q
Mungert
17.10k
10
Qwen2.5 VL 32B Instruct Exl2 4 25bpw
Apache-2.0
Qwen2.5-VL-32B-Instruct 是 Qwen 家族的最新視覺語言模型,具備強大的多模態理解和生成能力,支持圖像、視頻和文本的交互。
文本生成圖像
Transformers 英語

Q
christopherthompson81
68
3
Amoral Gemma3 12B Vision
基於soob3123/amoral-gemma3-12B的視覺增強版本,結合了Gemma3-12B大語言模型與視覺編碼器,支持多模態任務
圖像生成文本
Transformers 英語

A
gghfez
25
2
Qwen2.5 VL Instruct 3B Geo
Apache-2.0
Qwen2.5-VL是Qwen家族的最新視覺語言模型,專注於增強視覺理解和代理能力。
文本生成圖像
Transformers 英語

Q
kxxinDave
29
2
Mlabonne Gemma 3 4b It Abliterated GGUF
這是一個基於mlabonne/gemma-3-4b-it-abliterated模型的量化版本,使用llama.cpp進行imatrix量化,適用於圖像文本到文本任務。
圖像生成文本
M
bartowski
9,164
8
Toriigate V0.4 7B I1 GGUF
Apache-2.0
這是對Minthy/ToriiGate-v0.4-7B模型進行的加權/重要性矩陣量化版本,提供多種量化選項以適應不同需求。
圖像生成文本 英語
T
mradermacher
410
1
Qwen2.5 VL 72B Instruct AWQ Fix
其他
Qwen2.5-VL 是 Qwen 家族的最新視覺語言模型,具備強大的視覺理解和代理能力,支持多格式視覺定位和結構化輸出生成。
圖像生成文本
Transformers 英語

Q
Benasd
94
1
Qwen2.5 VL 72B Instruct AWQ
其他
Qwen2.5-VL是通義千問團隊推出的多模態大語言模型,具備強大的視覺理解和智能代理能力,支持圖像、視頻、文本等多種輸入格式。
文本生成圖像
Transformers 英語

Q
Benasd
173
6
Qwen2.5 VL 7B Instruct AWQ
Apache-2.0
Qwen2.5-VL是通義千問推出的多模態視覺語言模型,具備強大的圖像理解和文本生成能力。
圖像生成文本
Transformers 英語

Q
Benasd
226
7
Minicpm O 2 6 Gguf
MiniCPM-o 2.6是一個多模態模型,支持視覺和語言任務,專為llama.cpp設計。
圖像生成文本
M
openbmb
5,660
101
Razorback 12B V0.2
其他
Razorback 12B v0.2 是一個結合了Pixtral 12B和UnslopNemo v3優勢的多模態模型,具備視覺理解和語言處理能力。
圖像生成文本
Transformers 支持多種語言

R
nintwentydo
17
3
Qwen2 VL 72B Instruct GGUF
其他
Qwen2-VL-72B-Instruct的GGUF量化版本,支持多模態圖像文本到文本轉換,可通過LlamaEdge運行。
圖像生成文本
Transformers 英語

Q
second-state
221
0
Llama 3.2 90B Vision Instruct Unsloth Bnb 4bit
Meta Llama 3.2系列90B參數的多模態大語言模型,支持視覺指令理解,經Unsloth動態4位量化優化
文本生成圖像
Transformers 英語

L
unsloth
58
2
Minicpm V 2 6 Rk3588 1.1.4
MiniCPM-V 2.6是支持單圖、多圖和視頻理解的GPT-4V級別多模態大語言模型,專為RK3588 NPU優化
圖像生成文本
Transformers 其他

M
c01zaut
31
3
Cambrian 8b
Apache-2.0
寒武紀是一個開源的以視覺為核心設計的 multimodal LLM(多模態大語言模型)。
文本生成圖像
Transformers

C
nyu-visionx
565
63
Phi 3 Vision 128k Instruct
MIT
Phi-3-Vision-128K-Instruct是一個輕量級、前沿的開放多模態模型,支持128K令牌的上下文長度,專注於文本和視覺領域的高質量推理。
圖像生成文本
Transformers 其他

P
microsoft
25.19k
958
Llava Phi 3 Mini 4k Instruct
MIT
結合Phi-3-mini-3.8B大語言模型與LLaVA v1.5的視覺語言模型,提供先進的視覺語言理解能力。
圖像生成文本
Transformers

L
MBZUAI
550
22
Owlv2 Base Patch16
OWLv2是一個基於視覺語言預訓練的模型,專注於對象檢測和定位任務。
目標檢測
Transformers

O
Xenova
17
0
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98