Kimi VL A3B Thinking 2506
MIT
Kimi-VL-A3B-Thinking-2506 是 Kimi-VL-A3B-Thinking 的升級版,在多模態推理、視覺感知與理解、視頻場景處理等方面有顯著提升,支持更高分辨率圖像,且能在消耗更少令牌的情況下實現更智能的思考。
圖像生成文本
Transformers

K
moonshotai
515
67
Deepeyes 7B
Apache-2.0
DeepEyes是一個通過強化學習激勵'以圖思考'的視覺語言模型,能夠將視覺信息直接融入推理鏈,在圖像文本處理任務中表現出色。
文本生成圖像
Transformers 英語

D
ChenShawn
383
2
Unime LLaVA OneVision 7B
MIT
UniME是一個基於多模態大模型的通用嵌入學習框架,通過文本判別知識蒸餾和硬負樣本增強的指令調優策略,顯著提升了多模態嵌入能力。
多模態對齊
Transformers 英語

U
DeepGlint-AI
376
2
Webssl Dino2b Heavy2b 224
20億參數的自監督視覺Transformer模型,基於嚴格篩選的網絡圖像數據訓練,特別優化圖表和文本理解能力
圖像分類
Transformers

W
facebook
24
0
Unime LLaVA 1.6 7B
MIT
UniME是一個基於多模態大模型的通用嵌入學習模型,採用336×336圖像分辨率訓練,在MMEB排行榜上位列第一。
圖像生成文本
Transformers 英語

U
DeepGlint-AI
188
3
PE Core B16 224
Apache-2.0
感知編碼器是通過簡單視覺-語言學習訓練的最先進的圖像和視頻理解編碼器,在多種視覺任務上實現了最先進的性能。
文本生成圖像
P
facebook
9,663
11
Upernet Swin Large
MIT
基於Swin Transformer架構的UPerNet語義分割模型,適用於高精度圖像分割任務
圖像分割
U
smp-hub
110
0
Upernet Swin Small
MIT
基於Swin Transformer小型架構的UPerNet語義分割模型,適用於ADE20K等場景解析任務
圖像分割
Safetensors
U
smp-hub
100
0
Upernet Swin Tiny
MIT
UPerNet是一個基於ConvNeXt-Tiny架構的語義分割模型,適用於圖像分割任務。
圖像分割
Safetensors
U
smp-hub
191
0
Style 250412.vit Base Patch16 Siglip 384.v2 Webli
基於Vision Transformer架構的視覺模型,採用SigLIP(Sigmoid Loss for Language-Image Pretraining)訓練方法,適用於圖像理解任務。
圖像分類
Transformers

S
p1atdev
66
0
PE Core L14 336
Apache-2.0
Meta開發的大規模視覺編碼器模型,通過對比預訓練和合成視頻數據微調,在各類視覺任務中達到最先進性能
文本生成圖像
P
facebook
11.52k
34
Segformer B5 Finetuned Coralscapes 1024 1024
Apache-2.0
針對珊瑚礁語義分割任務優化的SegFormer模型,在1024x1024分辨率下對Coralscapes數據集進行微調
圖像分割
Transformers

S
EPFL-ECEO
821
0
Segformer B2 Finetuned Coralscapes 1024 1024
Apache-2.0
這是一個基於SegFormer架構的語義分割模型,專門針對珊瑚礁生態系統的圖像分割任務進行了優化,在Coralscapes數據集上微調。
圖像分割
Transformers

S
EPFL-ECEO
139
0
Aimv2 3b Patch14 224.apple Pt
AIM-v2是一個高效的圖像編碼器模型,兼容timm框架,適用於計算機視覺任務。
圖像分類
Transformers

A
timm
50
0
Eva02 Large Patch14 Clip 224.merged2b
MIT
EVA CLIP模型是基於OpenCLIP和timm模型權重的視覺語言模型,支持零樣本圖像分類等任務。
圖像分類
E
timm
165
0
Vit Huge Patch14 Clip 378.dfn5b
其他
DFN5B-CLIP的視覺編碼器部分,基於ViT-Huge架構,使用378x378分辨率圖像訓練的CLIP模型
圖像分類
Transformers

V
timm
461
0
Vit So400m Patch14 Siglip Gap 896.pali2 10b Pt
Apache-2.0
基於SigLIP圖像編碼器的視覺模型,帶全局平均池化,是PaliGemma2模型的一部分
文本生成圖像
Transformers

V
timm
57
1
Vit So400m Patch14 Siglip Gap 448.pali Mix
Apache-2.0
基於SigLIP圖像編碼器的視覺語言模型,採用全局平均池化處理,適用於多模態任務。
文本生成圖像
Transformers

V
timm
15
0
Segformer B3 1024x1024 City 160k
其他
基於Segformer架構的語義分割模型,針對Cityscapes數據集進行了優化
圖像分割
S
smp-hub
14
0
Segformer B0 1024x1024 City 160k
其他
基於Segformer架構的輕量級語義分割模型,預訓練於Cityscapes數據集
圖像分割
S
smp-hub
269
1
Segformer B2 1024x1024 City 160k
其他
基於Segformer架構的語義分割模型,專門針對Cityscapes數據集進行優化
圖像分割
Safetensors
S
smp-hub
651
0
Segformer B1 512x512 Ade 160k
其他
基於PyTorch的Segformer模型,用於語義分割任務,在ADE20K數據集上預訓練
圖像分割
S
smp-hub
20
0
Mplug Owl3 7B 241101
Apache-2.0
mPLUG-Owl3是一款先進的多模態大語言模型,專注於解決長圖像序列理解問題,通過超注意力機制顯著提升處理速度和序列長度支持。
文本生成圖像 英語
M
mPLUG
302
10
Clip Finetuned Csu P14 336 E3l57 L
該模型是基於openai/clip-vit-large-patch14-336微調的版本,主要用於圖像-文本匹配任務。
文本生成圖像
Transformers

C
kevinoli
31
0
Beit Base Patch16 384.in1k Ft Fungitastic 384
基於BEiT架構的丹麥真菌分類模型,專門用於識別和分類真菌物種。
圖像分類
PyTorch
B
BVRA
456
1
Idefics2 8b Chatty
Apache-2.0
Idefics2 是一個開放的多模態模型,能夠接受任意序列的圖像和文本輸入並生成文本輸出。該模型可以回答關於圖像的問題、描述視覺內容、基於多張圖像創作故事,或僅作為純語言模型使用。
圖像生成文本
Transformers 英語

I
HuggingFaceM4
617
94
Llava Jp 1.3b V1.1
LLaVA-JP是一個支持日語的多模態視覺語言模型,能夠理解和生成關於輸入圖像的描述和對話。
圖像生成文本
Transformers 日語

L
toshi456
90
11
Internvit 6B 448px V1 5
MIT
InternViT-6B-448px-V1-5是基於InternViT-6B-448px-V1-2微調的視覺基礎模型,具備強大的魯棒性、OCR能力及高分辨率處理能力。
文本生成圖像
Transformers

I
OpenGVLab
155
79
Idefics2 8b Base
Apache-2.0
Idefics2 是 Hugging Face 開發的開源多模態模型,能夠處理圖像和文本輸入並生成文本輸出,在 OCR、文檔理解和視覺推理方面表現優異。
圖像生成文本
Transformers 英語

I
HuggingFaceM4
1,409
28
Vitamin XL 256px
MIT
ViTamin-XL-256px是基於ViTamin架構的視覺語言模型,專為高效視覺特徵提取和多模態任務設計,支持高分辨率圖像處理。
文本生成圖像
Transformers

V
jienengchen
655
1
Vitamin XL 384px
MIT
ViTamin-XL-384px 是一個基於 ViTamin 架構的大規模視覺語言模型,專為視覺語言任務設計,支持高分辨率圖像處理和多模態特徵提取。
圖像生成文本
Transformers

V
jienengchen
104
20
Siglip So400m 14 980 Flash Attn2 Navit
Apache-2.0
基於SigLIP的視覺模型,通過插值位置嵌入提升最大分辨率至980x980,並實現NaViT策略支持可變分辨率和保持寬高比的圖像處理
文本生成圖像
Transformers

S
HuggingFaceM4
4,153
46
Chattruth 7B
ChatTruth-7B是基於Qwen-VL架構優化的多語言視覺-語言模型,增強了大分辨率圖像處理能力並引入還原模塊降低計算開銷
圖像生成文本
Transformers 支持多種語言

C
mingdali
73
13
Sdxl Instructpix2pix 768
基於Stable Diffusion XL (SDXL)進行指令微調的圖像編輯模型,採用InstructPix2Pix方法,支持通過自然語言指令編輯圖像。
圖像生成
S
diffusers
15.88k
50
Vit Small Patch14 Dinov2.lvd142m
Apache-2.0
基於視覺Transformer(ViT)的圖像特徵模型,採用自監督DINOv2方法在LVD-142M數據集上預訓練
圖像分類
Transformers

V
timm
35.85k
3
Vit Base Patch16 224 In21k Eurosat
Apache-2.0
基於Google Vision Transformer (ViT)架構的預訓練模型,在EuroSat數據集上進行了微調,適用於遙感圖像分類任務。
圖像分類
Transformers

V
ingeniou
25
0
Segformer B5 Finetuned Ade 640 640
其他
SegFormer是一個基於Transformer架構的語義分割模型,在ADE20k數據集上進行了微調,適用於圖像分割任務。
圖像分割
Transformers

S
nvidia
42.32k
39
Segformer B5 Finetuned Cityscapes 1024 1024
其他
在1024x1024分辨率下對CityScapes數據集進行微調的SegFormer語義分割模型,採用分層Transformer編碼器和輕量級全MLP解碼頭架構。
圖像分割
Transformers

S
nvidia
31.18k
24
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98