# 圖像文本生成

Gemma 3 12b It Quantized.w8a8
基於google/gemma-3-12b-it的INT8量化版本,支持視覺文本輸入和文本輸出,適用於高效推理部署
圖像生成文本 Transformers
G
RedHatAI
237
1
Xlangai Jedi 3B 1080p GGUF
Apache-2.0
Jedi-3B-1080p是由xlangai開發的3B參數模型,經過llama.cpp量化處理,適用於圖像文本生成文本任務。
大型語言模型 英語
X
bartowski
148
1
Medgemma 4b It GGUF
其他
medgemma-4b-it 是一個專注於醫療領域的多模態模型,能夠處理圖像和文本輸入,適用於放射學、臨床推理等多個醫療場景。
文本生成圖像 Transformers
M
second-state
564
1
Dimple 7B
Apache-2.0
Dimple是首個結合自迴歸與擴散訓練範式的離散擴散多模態大語言模型(DMLLM),在LLaVA-NEXT相同數據集上訓練後,以3.9%的優勢超越LLaVA-NEXT-7B。
圖像生成文本 Transformers 英語
D
rp-yu
422
3
Magma 8B GGUF
MIT
Magma-8B是一個基於GGUF格式的圖像文本到文本轉換模型,適用於多模態任務處理。
圖像生成文本
M
Mungert
545
1
Llava 1.5 7b Hf Q4 K M GGUF
該模型是基於llava-hf/llava-1.5-7b-hf轉換的GGUF格式模型,支持圖像文本生成任務。
圖像生成文本 英語
L
Marwan02
30
1
Qwen Qwen2.5 VL 72B Instruct GGUF
其他
Qwen2.5-VL-72B-Instruct的多模態大語言模型量化版本,支持圖像文本到文本任務,適用於多種量化級別,從高精度到低內存需求。
文本生成圖像 英語
Q
bartowski
1,336
1
Jedi 7B 1080p
Apache-2.0
Qwen2.5-VL-7B-Instruct 是一個基於 Qwen2.5 架構的多模態模型,支持圖像和文本的聯合處理,適用於視覺語言任務。
圖像生成文本 英語
J
xlangai
239
2
Mistral Community Pixtral 12b GGUF
Apache-2.0
這是pixtral-12b模型的量化版本,使用llama.cpp進行量化,支持圖像文本到文本的任務。
M
bartowski
1,728
4
UI TARS 1.5 7B 4bit
Apache-2.0
UI-TARS-1.5-7B-4bit是一個多模態模型,專注於圖像文本到文本的轉換任務,支持英文語言。
圖像生成文本 Transformers 支持多種語言
U
mlx-community
184
1
Gemma 3 1b It Qat
Gemma 3是谷歌推出的輕量級多模態模型,能夠處理文本和圖像輸入並生成文本輸出。該模型具有128K大上下文窗口和超140種語言的多語言支持。
圖像生成文本 Transformers
G
unsloth
2,558
1
Internvl3 8B Hf
其他
InternVL3 是一個先進的多模態大語言模型系列,具備強大的多模態感知和推理能力,支持圖像、視頻和文本輸入。
圖像生成文本 Transformers 其他
I
OpenGVLab
454
1
Internvl3 2B Hf
其他
InternVL3-2B是基於Hugging Face Transformers庫實現的多模態大語言模型,在圖像、視頻和文本處理等多模態任務上表現出色,支持多種輸入方式和高效的批量推理。
圖像生成文本 Transformers 其他
I
OpenGVLab
41.22k
2
Internvl3 1B Hf
其他
InternVL3 是一個先進的多模態大語言模型系列,展示了卓越的多模態感知和推理能力,支持圖像、視頻和文本輸入。
圖像生成文本 Transformers 其他
I
OpenGVLab
1,844
2
Kimi VL A3B Thinking 8bit
其他
Kimi-VL-A3B-Thinking-8bit 是一個基於 MLX 格式轉換的多模態視覺語言模型,支持圖像文本到文本的生成任務。
圖像生成文本 Transformers 其他
K
mlx-community
1,738
1
Gemma 3 27b It Qat Bf16
Gemma 3 27B IT QAT BF16 是由 Google 發佈的 Gemma 系列模型的一個版本,經過量化感知訓練(QAT)並轉換為 BF16 格式,適用於 MLX 框架。
圖像生成文本 Transformers
G
mlx-community
178
2
Gemma 3 27b It Qat 3bit
其他
該模型是從 google/gemma-3-27b-it-qat-q4_0-unquantized 轉換為 MLX 格式的 3 位量化版本,適用於圖像文本到文本任務。
圖像生成文本 Transformers 其他
G
mlx-community
197
2
Gemma 3 27b It Qat 4bit
其他
Gemma 3 27B IT QAT 4bit 是一個基於 Google 原始模型轉換而來的 MLX 格式模型,支持圖像文本到文本的任務。
圖像生成文本 Transformers 其他
G
mlx-community
2,200
12
Gemma 3 4b It GPTQ 4b 128g
基於gemma-3-4b-it模型進行INT4量化的版本,顯著減少存儲和計算資源需求
圖像生成文本 Transformers
G
ISTA-DASLab
502
2
Gemma 3 12b It Qat Int4 Unquantized
Gemma 3是Google推出的輕量級多模態開放模型,支持文本和圖像輸入,生成文本輸出,具有128K大上下文窗口和多語言能力。
圖像生成文本 Transformers
G
google
1,358
9
Gemma 3 12b It Qat Q4 0 Unquantized
Gemma 3是Google基於Gemini技術打造的輕量級開源多模態模型系列,支持文本和圖像輸入並生成文本輸出。12B版本經過指令調優和量化感知訓練(QAT),適合資源有限環境部署。
文本生成圖像 Transformers
G
google
1,159
10
Gemma 3 27b It Qat Q4 0 Gguf
Gemma 3是Google推出的輕量級開源多模態模型系列,支持文本和圖像輸入,能生成文本輸出。該版本為27B參數的指令調優模型,採用量化感知訓練技術,內存需求低但質量接近原版。
圖像生成文本
G
vinimuchulski
4,674
6
Vora 7B Instruct
VoRA是一個基於7B參數的視覺-語言模型,專注於圖像文本到文本的轉換任務。
圖像生成文本 Transformers
V
Hon-Wong
154
12
Vora 7B Base
VoRA是一個基於7B參數的視覺語言模型,能夠處理圖像和文本輸入,生成文本輸出。
圖像生成文本 Transformers
V
Hon-Wong
62
4
Qwen2.5 VL 7B Instruct Q4 K M GGUF
Apache-2.0
這是Qwen2.5-VL-7B-Instruct模型的GGUF量化版本,適用於多模態任務,支持圖像和文本輸入。
圖像生成文本 英語
Q
PatataAliena
69
1
Qwen2.5 VL 7B Instruct GGUF
Apache-2.0
Qwen2.5-VL-7B-Instruct 是一個多模態視覺語言模型,支持圖像理解和文本生成任務。
圖像生成文本 英語
Q
Mungert
17.10k
10
Heron NVILA Lite 1B
Apache-2.0
基於NVILA-Lite架構訓練的日語視覺語言模型,支持日語和英語的圖文交互
圖像生成文本 支持多種語言
H
turing-motors
460
2
Gemma 3 27b It Int4 Awq
Gemma是Google推出的輕量級先進開放模型系列,基於與Gemini相同的研究和技術構建。27B版本是多模態模型,支持文本和圖像輸入,生成文本輸出。
文本生成圖像 Transformers
G
gaunernst
17.62k
16
Gemma 3 4b It Int4 Awq
Gemma是Google推出的輕量級先進開放模型系列,基於與Gemini相同的研究技術構建。Gemma 3是多模態模型,能處理文本和圖像輸入並生成文本輸出。
文本生成圖像 Transformers
G
gaunernst
1,054
1
Smoldocling 256M Preview Mlx Fp16
Apache-2.0
該模型是從 ds4sd/SmolDocling-256M-preview 轉換為 MLX 格式的視覺語言模型,支持圖像文本到文本任務。
圖像生成文本 Transformers 英語
S
ahishamm
24
1
Gemma 3 4b Pt Qat Q4 0 Gguf
Gemma 3是Google推出的輕量級開放模型系列,基於與Gemini相同技術構建,支持多模態輸入和文本輸出。
圖像生成文本
G
google
912
16
Gemma 3 27b It Mlx
這是一個基於Google Gemma 3 27B IT模型轉換的MLX版本,支持圖像文本到文本的任務。
圖像生成文本 Transformers
G
stephenwalker
24
1
Rexseek 3B
其他
這是一個圖像文本到文本的轉換模型,能夠處理圖像和文本輸入,生成相應的文本輸出。
文本生成圖像 Transformers
R
IDEA-Research
186
4
Bytedance Research.ui TARS 72B SFT GGUF
字節跳動研究團隊發佈的72B參數規模的多模態基礎模型,專注於圖像文本轉文本任務
圖像生成文本
B
DevQuasar
81
1
Chameleon 7b
其他
Meta發佈的變色龍系列7B參數規模的多模態模型,支持圖像文本轉文本任務
大型語言模型
C
FriendliAI
24
1
Toriigate V0.4 7B I1 GGUF
Apache-2.0
這是對Minthy/ToriiGate-v0.4-7B模型進行的加權/重要性矩陣量化版本,提供多種量化選項以適應不同需求。
圖像生成文本 英語
T
mradermacher
410
1
Internvl2 5 4B AWQ
MIT
InternVL2_5-4B-AWQ 是使用 autoawq 對 InternVL2_5-4B 進行 AWQ 量化的版本,支持多語言和多模態任務。
圖像生成文本 Transformers 其他
I
rootonchair
29
2
Aya Vision 8b
Aya Vision 8B是一個開放權重的80億參數多語言視覺語言模型,支持23種語言的視覺和語言任務。
圖像生成文本 Transformers 支持多種語言
A
CohereLabs
29.94k
282
Gemma 3 12b It
Gemma是Google推出的輕量級前沿開源多模態模型系列,基於創建Gemini模型的技術構建,支持文本和圖像輸入並生成文本輸出。
圖像生成文本 Transformers
G
google
364.65k
340
Gemma 3 12b Pt
Gemma是Google推出的輕量級開源多模態模型系列,基於與Gemini相同技術構建,支持文本和圖像輸入並生成文本輸出。
圖像生成文本 Transformers
G
google
54.36k
46
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase