# 圖像文本理解

Gemma 27B Chatml
Gemma 3是Google推出的輕量級、最先進的開源多模態模型家族,基於創建Gemini模型的相同研究和技術構建,支持文本和圖像輸入並生成文本輸出。
圖像生成文本 Transformers
G
NewEden
1,425
0
Gemma 3 4b It Qat Autoawq
Gemma 3是谷歌推出的輕量級開源多模態模型,基於Gemini技術構建,支持文本和圖像輸入,生成文本輸出。
圖像生成文本 Safetensors
G
gaunernst
503
1
Llama 4 Maverick 17B 128E
其他
Llama 4 Maverick是Meta開發的多模態AI模型,採用混合專家架構,支持文本和圖像理解,具有170億激活參數和4000億總參數。
文本生成圖像 Transformers 支持多種語言
L
meta-llama
3,261
69
Gemma 3 1b Pt Unsloth Bnb 4bit
Gemma 3是谷歌推出的輕量級開放模型系列,支持多模態輸入(文本和圖像),擁有128K大上下文窗口,適用於問答、摘要等多種任務。
圖像生成文本 Transformers 英語
G
unsloth
4,481
3
Gemma 3 12b It GGUF
Gemma-3-12b-it-GGUF 是基於 Google 原始模型 google/gemma-3-12b-it 構建的量化模型,適用於圖像文本到文本的任務。
大型語言模型 Transformers
G
gaianet
203
0
Qwen2 VL 7B Instruct GGUF
Apache-2.0
基於Qwen2-VL-7B-Instruct的多模態模型量化版本,支持圖像文本到文本任務,適用於多種量化級別。
圖像生成文本 英語
Q
XelotX
201
1
Razorback 12B V0.2
其他
Razorback 12B v0.2 是一個結合了Pixtral 12B和UnslopNemo v3優勢的多模態模型,具備視覺理解和語言處理能力。
圖像生成文本 Transformers 支持多種語言
R
nintwentydo
17
3
Glm Edge V 2b
其他
GLM-Edge-V-2B是一個基於Pytorch框架的圖像文本到文本模型,支持中文處理。
圖像生成文本
G
THUDM
23.43k
11
Llava 1.6 Mistral 7b Gguf
Apache-2.0
LLaVA是一個開源的多模態聊天機器人,通過在多模態指令跟隨數據上微調LLM訓練而成。本版本為GGUF量化版本,提供多種量化選項。
文本生成圖像
L
cjpais
9,652
106
Llava Phi2
MIT
Llava-Phi2是基於Phi2的多模態實現,結合了視覺和語言處理能力,適用於圖像文本到文本的任務。
圖像生成文本 Transformers 英語
L
RaviNaik
153
6
Mmalaya
Apache-2.0
MMAlaya是基於大語言模型Alaya開發的多模態系統,包含大語言模型、圖像文本特徵編碼器和特徵轉換模塊三大核心組件。
圖像生成文本 Transformers
M
DataCanvas
31
1
Llava V1.5 13B AWQ
LLaVA是一個開源的多模態聊天機器人,通過微調LLaMA/Vicuna在GPT生成的多模態指令跟隨數據上進行訓練。
文本生成圖像 Transformers
L
TheBloke
141
35
Llava Pretrain Vicuna 7b V1.3
LLaVA 是一個開源多模態聊天機器人,基於 LLaMA/Vicuna 在 GPT 生成的多模態指令跟隨數據上進行微調訓練而成。
文本生成圖像 Transformers
L
liuhaotian
54
1
Git Base Textvqa
MIT
基於microsoft/git-base-textvqa在textvqa數據集上微調的視覺問答模型,擅長處理包含文本的圖像問答任務
大型語言模型 Transformers 其他
G
Hellraiser24
19
0
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase