Spatial LLaVA 7B Gguf
Apache-2.0
Spatial-LLaVA-7B是基於LLaVA模型微調的多模態模型,專注於提升空間關係推理能力,適用於多模態研究和聊天機器人開發。
文本生成圖像
Safetensors
S
rogerxi
252
1
Qwen3 8B NEO Imatrix Max GGUF
Apache-2.0
基於Qwen3-8B模型的NEO Imatrix量化版本,支持32K長上下文和增強推理能力
大型語言模型
Q
DavidAU
178
1
VL Rethinker 72B Mlx 4bit
Apache-2.0
VL-Rethinker-72B的4位量化版本,適用於蘋果設備的MLX框架,支持視覺問答任務。
文本生成圖像 英語
V
TheCluster
14
0
Gemma 3 12b It GPTQ 4b 128g
該模型是對google/gemma-3-12b-it進行INT4量化的版本,通過GPTQ算法將參數從16比特降至4比特,顯著減少了磁盤空間和GPU內存需求。
圖像生成文本
Transformers

G
ISTA-DASLab
1,175
2
Vora 7B Instruct
VoRA是一個基於7B參數的視覺-語言模型,專注於圖像文本到文本的轉換任務。
圖像生成文本
Transformers

V
Hon-Wong
154
12
Vora 7B Base
VoRA是一個基於7B參數的視覺語言模型,能夠處理圖像和文本輸入,生成文本輸出。
圖像生成文本
Transformers

V
Hon-Wong
62
4
Qwen2.5 VL 7B Instruct Q4 K M GGUF
Apache-2.0
這是Qwen2.5-VL-7B-Instruct模型的GGUF量化版本,適用於多模態任務,支持圖像和文本輸入。
圖像生成文本 英語
Q
PatataAliena
69
1
Q Sit
MIT
Q-SiT Mini是一個輕量級的圖像質量評估與對話模型,專注於圖像質量分析和評分。
圖像生成文本
Transformers

Q
zhangzicheng
79
0
Llava NeXT Video 7B Hf
LLaVA-NeXT-Video-7B-hf 是一個基於視頻的多模態模型,能夠處理視頻和文本輸入,生成文本輸出。
視頻生成文本
Safetensors 英語
L
FriendliAI
30
0
Internvl2 5 4B AWQ
MIT
InternVL2_5-4B-AWQ 是使用 autoawq 對 InternVL2_5-4B 進行 AWQ 量化的版本,支持多語言和多模態任務。
圖像生成文本
Transformers 其他

I
rootonchair
29
2
Qwen2.5 VL 7B Instruct GPTQ Int4
Apache-2.0
Qwen2.5-VL-7B-Instruct-GPTQ-Int4是基於Qwen2.5-VL-7B-Instruct模型進行非官方GPTQ-Int4量化的版本,支持圖文到文本的多模態任務。
圖像生成文本
Transformers 支持多種語言

Q
hfl
872
3
Internvl 2 5 HiCo R64
Apache-2.0
基於長且豐富的上下文(LRC)建模增強的視頻多模態大語言模型,通過提升感知細粒度細節和捕捉長時態結構的能力改進現有MLLM
視頻生成文本
Transformers 英語

I
OpenGVLab
252
2
Internlm Xcomposer2d5 7b Chat
其他
InternLM-XComposer2.5-Chat是基於InternLM-XComposer2.5-7B訓練的對話模型,在多模態指令跟隨和開放式對話能力方面有顯著提升。
文本生成圖像
PyTorch
I
internlm
87
5
QVQ 72B Preview Abliterated GPTQ Int8
其他
這是QVQ-72B-Preview-abliterated模型的GPTQ量化8位版本,支持圖像文本到文本的轉換任務。
圖像生成文本
Transformers 英語

Q
huihui-ai
48
1
Apollo LMMs Apollo 7B T32
Apache-2.0
Apollo是一系列專注於視頻理解的大型多模態模型,擅長處理長達一小時的視頻內容,支持複雜視頻問答和多輪對話。
視頻生成文本
Transformers 英語

A
GoodiesHere
67
55
Apollo LMMs Apollo 1 5B T32
Apache-2.0
Apollo 是一系列專注於視頻理解的大型多模態模型,擅長處理長視頻內容理解、時序推理和複雜視頻問答等任務。
視頻生成文本
A
GoodiesHere
37
10
Llama3.1 Typhoon2 Audio 8b Instruct
颱風2-音頻版是一個端到端的語音轉語音模型架構,能夠處理音頻、語音和文本輸入,並同時生成文本和語音輸出。該模型專門針對泰語優化,同時也支持英語。
文本生成音頻
Transformers 支持多種語言

L
scb10x
664
9
Mini InternVL2 1B DA DriveLM
MIT
Mini-InternVL2-DA-RS是針對遙感圖像領域優化的多模態模型,基於Mini-InternVL架構,通過領域適配框架微調,在遙感圖像理解任務上表現優異。
圖像生成文本
Transformers 其他

M
OpenGVLab
61
1
VARCO VISION 14B HF
VARCO-VISION-14B是一款強大的英韓視覺語言模型,支持圖像和文本輸入,生成文本輸出,具備定位、指代和OCR功能。
圖像生成文本
Transformers 支持多種語言

V
NCSOFT
449
24
Chatrex 7B
ChatRex是一款擅長感知的多模態大語言模型,能在回答問題的同時將答案關聯到具體對象。
圖像生成文本
Safetensors 英語
C
IDEA-Research
825
14
Glm Edge V 5b
其他
GLM-Edge-V-5B是一個50億參數的多模態模型,支持圖像和文本輸入,能夠執行圖像理解和文本生成任務。
圖像生成文本
G
THUDM
4,357
12
Glm Edge V 2b
其他
GLM-Edge-V-2B是一個基於Pytorch框架的圖像文本到文本模型,支持中文處理。
圖像生成文本
G
THUDM
23.43k
11
Mmduet
MIT
MMDuet是一個支持視頻播放時即時交互的VideoLLM模型,專注於時間敏感的視頻理解任務。
視頻生成文本 英語
M
wangyueqian
69
4
Aria Sequential Mlp Bnb Nf4
Apache-2.0
基於Aria-sequential_mlp的BitsAndBytes NF4量化版本,適用於圖像文本到文本任務,顯存需求約15.5 GB。
圖像生成文本
Transformers

A
leon-se
76
11
Aria Sequential Mlp FP8 Dynamic
Apache-2.0
基於Aria-sequential_mlp的FP8動態量化模型,適用於圖像文本到文本任務,顯存需求約30GB。
圖像生成文本
Transformers

A
leon-se
94
6
Mplug Owl3 1B 241014
Apache-2.0
mPLUG-Owl3 是一款先進的多模態大語言模型,專注於解決長圖像序列理解的挑戰,通過超注意力機制顯著提升處理速度和序列長度。
文本生成圖像 英語
M
mPLUG
617
2
Mplug Owl3 2B 241014
Apache-2.0
mPLUG-Owl3 是一款先進的多模態大語言模型,專注於解決長圖像序列理解的挑戰,通過超注意力機制顯著提升處理速度和序列長度。
文本生成圖像
Safetensors 英語
M
mPLUG
2,680
6
Videochat2 HD Stage4 Mistral 7B Hf
MIT
VideoChat2-HD-hf是一個基於Mistral-7B的多模態視頻理解模型,專注於視頻文本轉換任務。
視頻生成文本
V
OpenGVLab
393
3
Qwen2 Vl Tiny Random
這是一個基於Qwen2-VL-7B-Instruct配置隨機初始化的小型調試模型,用於視覺語言任務
圖像生成文本
Transformers

Q
yujiepan
27
1
Qwen2 Audio 7B Instruct 4bit
這是Qwen2-Audio-7B-Instruct的4位量化版本,基於阿里巴巴雲原版Qwen模型開發,是一個音頻-文本多模態大語言模型。
音頻生成文本
Transformers

Q
alicekyting
1,090
6
Internvideo2 Chat 8B InternLM2 5
MIT
InternVideo2-Chat-8B-InternLM2.5是一個視頻-文本多模態模型,通過整合InternVideo2視頻編碼器與大型語言模型(LLM)來增強視頻理解和人機交互能力。
視頻生成文本
I
OpenGVLab
60
7
Mplug Owl3 7B 240728
Apache-2.0
mPLUG-Owl3 是一款前沿的多模態大語言模型,專為解決長圖像序列理解難題而設計,支持處理單圖、多圖和視頻任務。
文本生成圖像 英語
M
mPLUG
4,823
39
Banban Beta V2 Gguf
AI虛擬主播闆闆模型,專為NTNU VLSI社團設計的虛擬主播助手,具有圖像文本到文本的能力。
圖像生成文本 支持多種語言
B
asadfgglie
97
1
Internvideo2 Chat 8B HD
MIT
InternVideo2-Chat-8B-HD 是一個結合了大型語言模型和視頻BLIP的視頻理解模型,通過漸進式學習方案構建,能夠處理高清視頻輸入。
視頻生成文本
I
OpenGVLab
190
16
Llava Saiga 8b
Apache-2.0
LLaVA-Saiga-8b是基於IlyaGusev/saiga_llama3_8b模型開發的視覺-語言模型(VLM),主要適配俄語任務,但仍具備英語處理能力。
圖像生成文本
Transformers 支持多種語言

L
deepvk
205
16
Tinyllava 1.1b V0.1
Apache-2.0
基於TinyLlama-1.1B的輕量級視覺問答模型,通過BakLlava代碼庫訓練而成,支持圖像內容理解和問答任務。
文本生成圖像
Transformers

T
TitanML
27
0
Llava Calm2 Siglip
Apache-2.0
llava-calm2-siglip 是一個實驗性的視覺語言模型,能夠用日語和英語回答關於圖像的問題。
圖像生成文本
Transformers 支持多種語言

L
cyberagent
3,930
25
Paligemma 3B Chat V0.2
基於google/paligemma-3b-mix-448微調的多模態對話模型,專為多輪對話場景優化
文本生成圖像
Transformers 支持多種語言

P
BUAADreamer
80
9
Vision 8B MiniCPM 2 5 Uncensored And Detailed 4bit
MiniCPM-Llama3-V 2.5 的 int4 量化版本,顯著降低 GPU 顯存佔用(約 9GB)
文本生成圖像
Transformers

V
sdasd112132
330
30
Cogvlm2 Llama3 Chat 19B Int4
其他
CogVLM2是基於Meta-Llama-3-8B-Instruct構建的多模態對話模型,支持中英文,具備8K上下文長度和1344*1344分辨率圖像處理能力。
文本生成圖像
Transformers 英語

C
THUDM
467
28
- 1
- 2
- 3
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98