Vigorl 7b Spatial
ViGoRL 是一個通過強化學習微調的視覺語言模型,用於將文本推理步驟與視覺座標明確關聯,實現精確的視覺推理和定位。
文本生成圖像
Transformers

V
gsarch
319
1
GUI Actor 2B Qwen2 VL
MIT
GUI-Actor-2B是基於Qwen2-VL-2B的視覺語言模型,專為圖形用戶界面(GUI)定位任務設計,通過增加基於注意力的動作頭並進行微調,在多個GUI定位基準測試中表現良好。
文本生成圖像
Transformers

G
microsoft
163
9
Vjepa2 Vitl Fpc64 256
MIT
V-JEPA 2是Meta旗下FAIR團隊開發的前沿視頻理解模型,擴展了VJEPA的預訓練目標,具備業界領先的視頻理解能力。
視頻處理
Transformers

V
facebook
109
27
Bespoke MiniChart 7B
由Bespoke Labs開發的7B參數規模開源圖表理解視覺語言模型,在圖表問答任務上超越Gemini-1.5-Pro等閉源模型
文本生成圖像 英語
B
bespokelabs
437
12
Instancecap Captioner
其他
基於Qwen2.5-VL-7B-Instruct在instancevid數據集上微調的視覺語言模型,專注於實例級圖像描述生成
圖像生成文本
Transformers

I
AnonMegumi
14
1
Dreamer 7B
Apache-2.0
WebDreamer 是一個規劃框架,能夠為現實世界中的網頁智能體任務實現高效且有效的規劃。
圖像生成文本
Transformers 英語

D
osunlp
62
3
Gemma 3 27b It GGUF
Gemma 3 27B參數的GGUF量化版本,支持圖像文本交互任務
文本生成圖像
G
Mungert
4,034
6
STEVE R1 7B SFT I1 GGUF
Apache-2.0
這是對Fanbin/STEVE-R1-7B-SFT模型進行的加權/矩陣量化版本,適用於資源受限環境。
文本生成圖像 英語
S
mradermacher
394
0
Gemma 3 27b Pt Qat Q4 0 Gguf
Gemma是谷歌推出的輕量級尖端開放模型家族,基於與Gemini模型相同的研究和技術構建。Gemma 3為多模態模型,可處理文本和圖像輸入並生成文本輸出。
圖像生成文本
G
google
633
24
Gemma 3 4b It GGUF
Gemma 3是谷歌推出的輕量級開源多模態模型,支持文本和圖像輸入,生成文本輸出,具有128K上下文窗口和140+語言支持。
圖像生成文本
G
ggml-org
9,023
25
Q Sit
MIT
Q-SiT Mini是一個輕量級的圖像質量評估與對話模型,專注於圖像質量分析和評分。
圖像生成文本
Transformers

Q
zhangzicheng
79
0
Llama 3 2 11b Vision Electrical Components Instruct
MIT
Llama 3.2 11B Vision Instruct 是一個結合視覺和語言的多模態模型,支持圖像轉文本任務。
圖像生成文本 英語
L
ankitelastiq
22
1
Llava NeXT Video 7B Hf
LLaVA-NeXT-Video-7B-hf 是一個基於視頻的多模態模型,能夠處理視頻和文本輸入,生成文本輸出。
視頻生成文本
Safetensors 英語
L
FriendliAI
30
0
Internlm XComposer2 Enhanced
其他
基於InternLM2開發的視覺語言大模型,具備卓越的圖文理解與創作能力
文本生成圖像
I
Coobiw
14
0
Libra Llava Med V1.5 Mistral 7b
Apache-2.0
LLaVA-Med是一個專為生物醫學應用優化的開源大型視覺語言模型,基於LLaVA框架,通過課程學習增強,並針對開放式生物醫學問答任務進行了微調。
圖像生成文本
Transformers

L
X-iZhang
180
1
Florence 2 Base Castollux V0.4
基於microsoft/Florence-2-base微調的圖像描述生成模型,專注於提升描述質量和格式
圖像生成文本
Transformers 英語

F
PJMixers-Images
23
1
Llava Llama3
LLaVA-Llama3是基於Llama-3的多模態模型,支持圖像與文本的聯合處理。
圖像生成文本
L
chatpig
360
1
UI TARS 7B DPO
Apache-2.0
UI-TARS 是新一代原生圖形用戶界面(GUI)智能體模型,旨在通過類人的感知、推理和行動能力與圖形用戶界面無縫交互。
圖像生成文本
Transformers 支持多種語言

U
ByteDance-Seed
38.74k
206
UI TARS 2B SFT
Apache-2.0
UI-TARS 是新一代原生圖形用戶界面(GUI)代理模型,旨在通過類人的感知、推理和行動能力,無縫地與圖形用戶界面交互。
圖像生成文本
Transformers 支持多種語言

U
ByteDance-Seed
5,553
19
UI TARS 2B SFT
Apache-2.0
UI-TARS是新一代原生圖形用戶界面(GUI)代理模型,旨在通過類人的感知、推理和行動能力與圖形用戶界面無縫交互。
圖像生成文本
Transformers 支持多種語言

U
bytedance-research
5,792
19
Deqa Score Mix3
MIT
DeQA-Score-Mix3是基於MAGAer13/mplug-owl2-llama2-7b基礎模型微調的無參考圖像質量評估模型,在多個數據集上表現出色。
圖像生成文本
Transformers 英語

D
zhiyuanyou
4,177
2
Colqwen2 7b V1.0
基於Qwen2-VL-7B-Instruct與ColBERT策略的視覺檢索模型,支持多向量文本與圖像表示
文本生成圖像 英語
C
yydxlv
25
1
Videochat TPO
MIT
基於論文《任務偏好優化:通過視覺任務對齊改進多模態大語言模型》研發的多模態大語言模型
文本生成視頻
Transformers

V
OpenGVLab
18
5
Olympus
Apache-2.0
Olympus是一個通用任務路由系統,專為計算機視覺任務設計,能夠處理20種不同的視覺任務,並通過任務路由機制實現高效的多任務處理。
文本生成圖像
Transformers 英語

O
Yuanze
231
2
Llava Critic 7b Hf
這是一個與transformers兼容的視覺語言模型,具備圖像理解和文本生成能力
文本生成圖像
Transformers

L
FuryMartin
21
1
BLIP Radiology Model
BLIP 是一個基於 Transformer 的圖像描述生成模型,能夠為輸入圖像生成自然語言描述。
圖像生成文本
Transformers

B
daliavanilla
16
0
Colqwen2 V0.1
Apache-2.0
基於Qwen2-VL-2B-Instruct與ColBERT策略的視覺檢索模型,能高效通過視覺特徵索引文檔
文本生成圖像
Safetensors 英語
C
vidore
21.25k
170
Cogflorence 2.2 Large
MIT
該模型是microsoft/Florence-2-large的微調版本,在Ejafa/ye-pop數據集的4萬張圖像子集上進行訓練,標註文本由THUDM/cogvlm2-llama3-chat-19B生成,適用於圖像轉文本任務。
圖像生成文本
Transformers 支持多種語言

C
thwri
20.64k
33
Lumina Mgpt 7B 512
Lumina-mGPT是一個多模態自迴歸模型家族,擅長執行多種視覺與語言任務,特別是根據文本描述生成靈活逼真的圖像。
文本生成圖像
L
Alpha-VLLM
1,185
4
Cogflorence 2 Large Freeze
MIT
這是microsoft/Florence-2-large模型的微調版本,在Ejafa/ye-pop數據集的38,000張圖像子集上訓練,使用CogVLM2生成標註,專注於圖像轉文本任務。
圖像生成文本
Transformers 支持多種語言

C
thwri
419
14
Tic CLIP Bestpool Sequential
其他
TiC-CLIP是基於TiC-DataComp-Yearly數據集訓練的視覺語言模型,採用持續學習策略保持模型與最新數據同步
文本生成圖像
T
apple
280
0
Tic CLIP Bestpool Oracle
其他
TiC-CLIP是基於OpenCLIP改進的視覺語言模型,專注於時間持續學習,訓練數據涵蓋2014至2022年
文本生成圖像
T
apple
44
0
Llava Phi 3 Mini 4k Instruct
MIT
結合Phi-3-mini-3.8B大語言模型與LLaVA v1.5的視覺語言模型,提供先進的視覺語言理解能力。
圖像生成文本
Transformers

L
MBZUAI
550
22
Llava Phi 3 Mini Gguf
LLaVA-Phi-3-mini 是基於 Phi-3-mini-4k-instruct 和 CLIP-ViT-Large-patch14-336 微調的 LLaVA 模型,專注於圖像轉文本任務。
圖像生成文本
L
xtuner
1,676
133
Moondream Next
moondream的預發佈版本,主要用於內部測試。
大型語言模型
Transformers

M
vikhyatk
153
40
Vlrm Blip2 Opt 2.7b
MIT
通過強化學習方法微調的BLIP-2 OPT-2.7B模型,能夠生成長且全面的圖像描述
圖像生成文本
Transformers 英語

V
sashakunitsyn
398
17
Blip Finetuned Fashion
Bsd-3-clause
該模型是基於Salesforce/blip-vqa-base微調的視覺問答模型,專注於時尚領域
文本生成圖像
Transformers

B
Ornelas
2,281
0
Infimm Hd
InfiMM-HD是一個高分辨率多模態模型,能夠理解和生成結合圖像和文本的內容。
圖像生成文本
Transformers 英語

I
Infi-MM
17
27
Tecoa2 Clip
MIT
基於OpenAI CLIP初始化的視覺語言模型,在ImageNet上進行監督式對抗微調,具有魯棒性增強特性
文本生成圖像
T
chs20
53
1
Fare2 Clip
MIT
基於OpenAI CLIP初始化的視覺語言模型,通過無監督對抗微調提升魯棒性
文本生成圖像
F
chs20
543
2
- 1
- 2
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98