Cosmos Reason1 7B GGUF
其他
Cosmos-Reason1是NVIDIA開發的物理AI模型,能夠理解物理常識並通過長鏈思維推理生成具身決策自然語言。
文本生成視頻
Transformers 英語

C
unsloth
6,690
1
Qwen2.5 VL 32B Instruct GGUF
Apache-2.0
Qwen2.5-VL-32B-Instruct 是一個強大的視覺語言模型,具備增強的數學和問題解決能力,適用於多模態任務。
圖像生成文本 英語
Q
unsloth
464
1
Cosmos Reason1 7B
其他
Cosmos-Reason1是NVIDIA開發的物理AI模型,能夠理解物理常識並通過長鏈思維推理生成具身決策。

C
nvidia
18.56k
72
Anon
Apache-2.0
基於lmms-lab/llava-onevision-qwen2-7b-ov模型微調的版本,支持視頻文本到文本的轉換任務。
英語
A
aiden200
361
0
Internvideo2 Stage2 6B
MIT
InternVideo2是一個多模態視頻理解模型,具有6B參數規模,專注於視頻內容分析和理解任務。
視頻生成文本
I
OpenGVLab
542
0
Qwen2.5 VL 72B Instruct Pointer AWQ
其他
Qwen2.5-VL是Qwen家族的最新視覺語言模型,具備增強的視覺理解、代理能力和結構化輸出生成功能。
圖像生成文本
Transformers 英語

Q
PointerHQ
5,592
8
VL3 SigLIP NaViT
Apache-2.0
VideoLLaMA3的視覺編碼器,採用任意分辨率視覺標記化(AVT)技術,動態處理不同分辨率的圖像和視頻。
文本生成圖像
Transformers 英語

V
DAMO-NLP-SG
25.55k
8
Videollama2.1 7B 16F Base
Apache-2.0
VideoLLaMA2.1是基於VideoLLaMA2的升級版本,專注於提升視頻大語言模型中的時空建模與音頻理解能力。
視頻生成文本
Transformers 英語

V
DAMO-NLP-SG
179
1
Videollama2.1 7B 16F
Apache-2.0
VideoLLaMA 2是一個多模態大語言模型,專注於視頻理解,具備時空建模和音頻理解能力。
文本生成視頻
Transformers 英語

V
DAMO-NLP-SG
2,813
10
Videollama2 72B
Apache-2.0
VideoLLaMA 2是一個多模態大語言模型,專注於視頻理解和時空建模,支持視頻和圖像輸入,能夠進行視覺問答和對話任務。
文本生成視頻
Transformers 英語

V
DAMO-NLP-SG
26
10
Tarsier 34b
Apache-2.0
Tarsier-34b 是一個開源的大規模視頻語言模型,專注於生成高質量的視頻描述,並在多個公開基準測試中取得領先成績。
視頻生成文本
Transformers

T
omni-research
103
17
Videollama2 8x7B Base
Apache-2.0
VideoLLaMA 2是新一代視頻大語言模型,專注於提升時空建模能力和音頻理解能力,支持多模態視頻問答和描述任務。
文本生成視頻
Transformers 英語

V
DAMO-NLP-SG
20
2
Videollama2 8x7B
Apache-2.0
VideoLLaMA 2是一個多模態大語言模型,專注於視頻理解和音頻處理,能夠處理視頻和圖像輸入並生成自然語言響應。
文本生成視頻
Transformers 英語

V
DAMO-NLP-SG
21
3
Llava NeXT Video 34B Hf
LLaVA-NeXT-Video是一個開源多模態聊天機器人,通過視頻和圖像數據混合訓練,具備優秀的視頻理解能力。
文本生成視頻
Transformers 英語

L
llava-hf
2,232
7
Llava NeXT Video 7B DPO Hf
LLaVA-NeXT-Video是一個開源多模態聊天機器人,通過視頻和圖像數據混合訓練優化,具備優秀的視頻理解能力。
視頻生成文本
Transformers 英語

L
llava-hf
12.61k
9
Sharegpt4video 8b
Apache-2.0
ShareGPT4Video-8B 是一個開源視頻聊天機器人,通過在開源視頻指令數據上進行微調訓練而成。
文本生成視頻
Transformers

S
Lin-Chen
1,973
44
Llava NeXT Video 7B Hf
LLaVA-NeXT-Video是一個開源多模態聊天機器人,通過視頻和圖像數據混合訓練獲得優秀的視頻理解能力,在VideoMME基準上達到開源模型SOTA水平。
文本生成視頻
Transformers 英語

L
llava-hf
65.95k
88
Xclip Large Patch14 Kinetics 600
MIT
X-CLIP是CLIP的擴展版本,用於通用視頻語言理解,通過對比學習在視頻和文本對上訓練。
文本生成視頻
Transformers 英語

X
microsoft
124
5
Xclip Base Patch16 Kinetics 600 16 Frames
MIT
X-CLIP是對CLIP的擴展,用於通用視頻語言理解,支持零樣本、少樣本或全監督的視頻分類以及視頻-文本檢索等任務。
文本生成視頻
Transformers 英語

X
microsoft
393
2
Xclip Base Patch16 Kinetics 600
MIT
X-CLIP是CLIP的擴展版本,用於通用的視頻語言理解,通過對比學習在(視頻,文本)對上訓練。
文本生成視頻
Transformers 英語

X
microsoft
294
1
Xclip Large Patch14
MIT
X-CLIP是對CLIP的擴展,用於通用視頻-語言理解,通過對比學習在(視頻,文本)對上訓練。
文本生成視頻
Transformers 英語

X
microsoft
1,698
11
Xclip Base Patch16 16 Frames
MIT
X-CLIP是對CLIP的極簡擴展,用於通用視頻-語言理解,通過對比學習在(視頻,文本)對上訓練。
文本生成視頻
Transformers 英語

X
microsoft
1,034
0
Xclip Base Patch32 16 Frames
MIT
X-CLIP是CLIP的擴展版本,用於通用視頻語言理解,通過對比學習在視頻和文本對上訓練,適用於視頻分類和視頻-文本檢索等任務。
文本生成視頻
Transformers 英語

X
microsoft
901
4
Xclip Base Patch32
MIT
X-CLIP是CLIP的擴展版本,用於通用視頻語言理解,通過對比學習在(視頻,文本)對上訓練,適用於視頻分類和視頻-文本檢索等任務。
文本生成視頻
Transformers 英語

X
microsoft
309.80k
84
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98