GLM 4.1V 9B Thinking
MIT
GLM-4.1V-9B-Thinking是基於GLM-4-9B-0414基礎模型的開源視覺語言模型,專注於提升複雜任務中的推理能力,支持64k上下文長度和4K圖像分辨率。
圖像生成文本
Transformers 支持多種語言

G
THUDM
163
95
Kimi VL A3B Thinking 2506
MIT
Kimi-VL-A3B-Thinking-2506 是 Kimi-VL-A3B-Thinking 的升級版,在多模態推理、視覺感知與理解、視頻場景處理等方面有顯著提升,支持更高分辨率圖像,且能在消耗更少令牌的情況下實現更智能的思考。
圖像生成文本
Transformers

K
moonshotai
515
67
Magistral Small 2506 Vision
Apache-2.0
Magistral-Small-2506-Vision 是一個基於 Mistral Small 3.1 進行 GRPO 訓練的推理微調版本,具備視覺能力的實驗性檢查點。
圖像生成文本
Safetensors 支持多種語言
M
OptimusePrime
125
5
RT DETR L Wireless Table Cell Det
Apache-2.0
RT-DETR-L_wireless_table_cell_det 是一個高精度的表格單元格檢測模型,專為表格識別任務設計,能夠準確定位和標記表格圖像中的每個單元格區域。
文字識別 支持多種語言
R
PaddlePaddle
1,144
0
Stockmark 2 VL 100B Beta
其他
Stockmark-2-VL-100B-beta 是一款具有1000億參數的日語專用視覺語言模型,具備思維鏈(CoT)推理能力,可用於文檔閱讀理解。
圖像生成文本
Transformers 支持多種語言

S
stockmark
184
8
Internvl3 14B Instruct GGUF
Apache-2.0
InternVL3-14B-Instruct 是一個先進的多模態大語言模型(MLLM),展示了卓越的多模態感知和推理能力,支持工具使用、GUI代理、工業圖像分析、3D視覺感知等多種任務。
圖像生成文本
Transformers

I
unsloth
982
1
Internvl3 8B Instruct GGUF
Apache-2.0
InternVL3-8B-Instruct 是一個先進的多模態大語言模型(MLLM),展示了卓越的整體性能,具備強大的多模態感知和推理能力。
文本生成圖像
Transformers

I
unsloth
2,412
1
Internvl3 8B
Apache-2.0
InternVL3-8B 是一款先進的多模態大語言模型,具備卓越的多模態感知和推理能力,能處理圖像、視頻等多模態數據。
多模態對齊
Transformers

I
unsloth
224
1
Internvl3 1B GGUF
Apache-2.0
InternVL3-1B是一款先進的多模態大語言模型,在多模態感知、推理等能力上表現出色,還拓展了工具使用、GUI代理等多模態能力。
多模態融合
Transformers

I
unsloth
868
2
Visionreasoner 7B
Apache-2.0
VisionReasoner-7B是一個圖像文本到文本的模型,採用解耦架構,由推理模型和分割模型組成,能解讀用戶意圖並生成像素級掩碼。
圖像生成文本
Transformers 英語

V
Ricky06662
2,398
1
Qwen2.5 VL 32B Instruct FP8 Dynamic
Apache-2.0
基於Qwen2.5-VL-32B-Instruct模型的FP8量化版本,支持視覺-文本輸入和文本輸出,適用於高效推理場景。
圖像生成文本
Transformers 英語

Q
BCCard
140
1
Gemma 3 27b It FP8 Dynamic
Apache-2.0
這是google/gemma-3-27b-it的量化版本,採用FP8數據類型對權重進行量化,適用於視覺-文本輸入並輸出文本,可藉助vLLM高效部署進行推理。
圖像生成文本
Transformers 英語

G
RedHatAI
1,608
1
Qwen3 8B
Apache-2.0
Qwen3-8B 是 Qwen 系列的最新大語言模型,具備多種先進特性,支持多語言,在推理、指令跟隨等方面表現出色,能為用戶帶來更智能、自然的交互體驗。
大型語言模型
Transformers

Q
unsloth
30.23k
5
Bespoke MiniChart 7B
由Bespoke Labs開發的7B參數規模開源圖表理解視覺語言模型,在圖表問答任務上超越Gemini-1.5-Pro等閉源模型
文本生成圖像 英語
B
bespokelabs
437
12
Skywork R1V2 38B
MIT
天工-R1V2-38B是當前最先進的開源多模態推理模型,在多項基準測試中表現卓越,具備強大的視覺推理與文本理解能力。
圖像生成文本
Transformers

S
Skywork
1,778
105
Vica2 Init
Apache-2.0
ViCA2是一個多模態視覺語言模型,專注於視頻理解和視覺空間認知任務。
視頻生成文本
Transformers 英語

V
nkkbr
30
0
Vica2 Stage2 Onevision Ft
Apache-2.0
ViCA2是一個7B參數規模的多模態視覺語言模型,專注於視頻理解和視覺空間認知任務。
視頻生成文本
Transformers 英語

V
nkkbr
63
0
Internvl3 78B Hf
其他
InternVL3 是一個先進的多模態大語言模型系列,具備強大的多模態感知和推理能力,支持圖像、視頻和文本輸入。
圖像生成文本
Transformers 其他

I
OpenGVLab
40
1
Internvl3 38B Hf
其他
InternVL3-38B是一個先進的多模態大語言模型(MLLM),在多模態感知和推理能力上有顯著提升,支持工具使用、GUI代理、工業圖像分析、3D視覺感知等領域。
圖像生成文本
Transformers 其他

I
OpenGVLab
2,226
3
Synthia S1 27b Bnb 4bit
Synthia-S1-27b是由Tesslate AI開發的高級推理AI模型,專注於邏輯推理、編碼和角色扮演任務。
文本生成圖像
Transformers

S
GusPuffy
858
1
Internvl3 14B Hf
其他
InternVL3-14B是一個強大的多模態大語言模型,在多模態感知和推理能力上表現卓越,支持圖像、文本、視頻等多種輸入。
圖像生成文本
Transformers 其他

I
OpenGVLab
4,260
0
Spacethinker Qwen2.5VL 3B
Apache-2.0
SpaceThinker是一款通過測試時計算增強空間推理能力的多模態視覺語言模型,特別擅長定量空間推理和物體關係分析。
文本生成圖像 英語
S
remyxai
490
7
Internvl3 9B AWQ
MIT
InternVL3-9B是InternVL3系列中的一款多模態大語言模型,具備卓越的多模態感知與推理能力,支持工具使用、GUI代理、工業圖像分析、3D視覺感知等多種應用場景。
文本生成圖像
Transformers 其他

I
OpenGVLab
214
1
Internvl3 8B AWQ
其他
InternVL3-8B是OpenGVLab推出的先進多模態大語言模型,具備強大的多模態感知與推理能力,支持工具調用、GUI智能體、工業圖像分析、3D視覺感知等新領域。
圖像生成文本
Transformers 其他

I
OpenGVLab
1,441
3
TBAC VLR1 3B Preview
Apache-2.0
由騰訊PCG基礎算法中心微調的多模態語言模型,基於Qwen2.5-VL-3B-Instruct優化,在同規模模型中實現多項多模態推理基準的最先進性能
圖像生成文本 英語
T
TencentBAC
328
11
Internvl3 9B Instruct
MIT
InternVL3-9B-Instruct 是 InternVL3 系列的監督微調版本,具備強大的多模態感知和推理能力,支持圖像、文本、視頻等多種模態處理。
圖像生成文本
Transformers 其他

I
OpenGVLab
220
2
Internvl3 8B Instruct
其他
InternVL3-8B-Instruct 是一個先進的多模態大語言模型(MLLM),展示了卓越的多模態感知和推理能力,支持工具使用、GUI代理、工業圖像分析、3D視覺感知等多種功能。
圖像生成文本
Transformers 其他

I
OpenGVLab
885
2
Mistral Small 3.1 24B Instruct 2503 Quantized.w4a16
Apache-2.0
這是一個經過INT4量化的Mistral-Small-3.1-24B-Instruct-2503模型,由Red Hat (Neural Magic)優化發佈,適用於快速響應的對話代理和低延遲推理場景。
文本生成圖像
Safetensors 支持多種語言
M
RedHatAI
219
1
VL Reasoner 7B
Apache-2.0
VL-Reasoner-7B 是一個基於 GRPO-SSR 技術訓練的多模態推理模型,在多項多模態推理基準測試中表現卓越。
文本生成圖像
Transformers 英語

V
TIGER-Lab
126
1
Internvl3 38B
其他
InternVL3-38B 是一款先進的多模態大語言模型,在多模態感知、推理等能力上表現卓越,相較於前代模型有顯著提升,還拓展了工具使用、GUI 代理等多模態能力。
文本生成圖像
Transformers 其他

I
FriendliAI
166
0
Internvl3 8B
其他
InternVL3-8B是一款先進的多模態大語言模型,具備卓越的多模態感知和推理能力,在工具使用、GUI代理、工業圖像分析等多領域表現出色。
多模態融合
Transformers 其他

I
FriendliAI
167
0
General Reasoner 14B Preview
Apache-2.0
基於Qwen2.5-14B基礎模型和VisualWebInstruct-Verified數據集訓練的多模態推理模型,支持英語任務處理。
大型語言模型
Transformers 英語

G
TIGER-Lab
33
3
Spaceqwen2.5 VL 3B Instruct GGUF
Apache-2.0
SpaceQwen2.5-VL-3B-Instruct 是一個多模態視覺語言模型,專注於空間推理和具身智能任務。
文本生成圖像 英語
S
mradermacher
282
0
R01 Gemma 3 1b It
Gemma 3是谷歌推出的輕量級開源多模態模型,基於與Gemini相同技術構建,支持文本和圖像輸入並生成文本輸出。
文本生成圖像
Transformers 英語

R
EpistemeAI
17
1
Cogito V1
Apache-2.0
DeepCogito推出的通過迭代蒸餾與放大(IDA)訓練的強大混合推理模型,在編程、STEM、多語言和智能體應用場景中表現卓越。
大型語言模型
C
cortexso
4,002
2
Qwen2.5 VL 7B Instruct Gptqmodel Int8
MIT
基於Qwen2.5-VL-7B-Instruct模型進行GPTQ-INT8量化的視覺語言模型
圖像生成文本
Transformers 支持多種語言

Q
wanzhenchn
101
0
Space Voice Label Detect Beta
Apache-2.0
基於Qwen2.5-VL-3B模型的微調版本,使用Unsloth和Huggingface TRL庫進行訓練,推理速度提升2倍
文本生成圖像
Transformers 英語

S
devJy
38
1
Dreamer 7B
Apache-2.0
WebDreamer 是一個規劃框架,能夠為現實世界中的網頁智能體任務實現高效且有效的規劃。
圖像生成文本
Transformers 英語

D
osunlp
62
3
Gemma 3 27b It GGUF
Gemma 3 27B參數的GGUF量化版本,支持圖像文本交互任務
文本生成圖像
G
Mungert
4,034
6
3B Curr ReFT
Apache-2.0
基於Qwen2.5-VL通過創新性Curr-ReFT方法微調的多模態大語言模型,顯著提升了視覺語言理解與推理能力。
文本生成圖像
3
ZTE-AIM
37
3
- 1
- 2
- 3
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98