# 多模態視頻理解

Cosmos Reason1 7B GGUF
其他
Cosmos-Reason1是NVIDIA開發的物理AI模型,能夠理解物理常識並通過長鏈思維推理生成具身決策自然語言。
文本生成視頻 Transformers 英語
C
unsloth
6,690
1
Qwen2.5 VL 32B Instruct GGUF
Apache-2.0
Qwen2.5-VL-32B-Instruct 是一個強大的視覺語言模型,具備增強的數學和問題解決能力,適用於多模態任務。
圖像生成文本 英語
Q
unsloth
464
1
Cosmos Reason1 7B
其他
Cosmos-Reason1是NVIDIA開發的物理AI模型,能夠理解物理常識並通過長鏈思維推理生成具身決策。
Transformers 英語
C
nvidia
18.56k
72
Anon
Apache-2.0
基於lmms-lab/llava-onevision-qwen2-7b-ov模型微調的版本,支持視頻文本到文本的轉換任務。
英語
A
aiden200
361
0
Internvideo2 Stage2 6B
MIT
InternVideo2是一個多模態視頻理解模型,具有6B參數規模,專注於視頻內容分析和理解任務。
視頻生成文本
I
OpenGVLab
542
0
Qwen2.5 VL 72B Instruct Pointer AWQ
其他
Qwen2.5-VL是Qwen家族的最新視覺語言模型,具備增強的視覺理解、代理能力和結構化輸出生成功能。
圖像生成文本 Transformers 英語
Q
PointerHQ
5,592
8
VL3 SigLIP NaViT
Apache-2.0
VideoLLaMA3的視覺編碼器,採用任意分辨率視覺標記化(AVT)技術,動態處理不同分辨率的圖像和視頻。
文本生成圖像 Transformers 英語
V
DAMO-NLP-SG
25.55k
8
Videollama2.1 7B 16F Base
Apache-2.0
VideoLLaMA2.1是基於VideoLLaMA2的升級版本,專注於提升視頻大語言模型中的時空建模與音頻理解能力。
視頻生成文本 Transformers 英語
V
DAMO-NLP-SG
179
1
Videollama2.1 7B 16F
Apache-2.0
VideoLLaMA 2是一個多模態大語言模型,專注於視頻理解,具備時空建模和音頻理解能力。
文本生成視頻 Transformers 英語
V
DAMO-NLP-SG
2,813
10
Videollama2 72B
Apache-2.0
VideoLLaMA 2是一個多模態大語言模型,專注於視頻理解和時空建模,支持視頻和圖像輸入,能夠進行視覺問答和對話任務。
文本生成視頻 Transformers 英語
V
DAMO-NLP-SG
26
10
Tarsier 34b
Apache-2.0
Tarsier-34b 是一個開源的大規模視頻語言模型,專注於生成高質量的視頻描述,並在多個公開基準測試中取得領先成績。
視頻生成文本 Transformers
T
omni-research
103
17
Videollama2 8x7B Base
Apache-2.0
VideoLLaMA 2是新一代視頻大語言模型,專注於提升時空建模能力和音頻理解能力,支持多模態視頻問答和描述任務。
文本生成視頻 Transformers 英語
V
DAMO-NLP-SG
20
2
Videollama2 8x7B
Apache-2.0
VideoLLaMA 2是一個多模態大語言模型,專注於視頻理解和音頻處理,能夠處理視頻和圖像輸入並生成自然語言響應。
文本生成視頻 Transformers 英語
V
DAMO-NLP-SG
21
3
Llava NeXT Video 34B Hf
LLaVA-NeXT-Video是一個開源多模態聊天機器人,通過視頻和圖像數據混合訓練,具備優秀的視頻理解能力。
文本生成視頻 Transformers 英語
L
llava-hf
2,232
7
Llava NeXT Video 7B DPO Hf
LLaVA-NeXT-Video是一個開源多模態聊天機器人,通過視頻和圖像數據混合訓練優化,具備優秀的視頻理解能力。
視頻生成文本 Transformers 英語
L
llava-hf
12.61k
9
Sharegpt4video 8b
Apache-2.0
ShareGPT4Video-8B 是一個開源視頻聊天機器人,通過在開源視頻指令數據上進行微調訓練而成。
文本生成視頻 Transformers
S
Lin-Chen
1,973
44
Llava NeXT Video 7B Hf
LLaVA-NeXT-Video是一個開源多模態聊天機器人,通過視頻和圖像數據混合訓練獲得優秀的視頻理解能力,在VideoMME基準上達到開源模型SOTA水平。
文本生成視頻 Transformers 英語
L
llava-hf
65.95k
88
Xclip Large Patch14 Kinetics 600
MIT
X-CLIP是CLIP的擴展版本,用於通用視頻語言理解,通過對比學習在視頻和文本對上訓練。
文本生成視頻 Transformers 英語
X
microsoft
124
5
Xclip Base Patch16 Kinetics 600 16 Frames
MIT
X-CLIP是對CLIP的擴展,用於通用視頻語言理解,支持零樣本、少樣本或全監督的視頻分類以及視頻-文本檢索等任務。
文本生成視頻 Transformers 英語
X
microsoft
393
2
Xclip Base Patch16 Kinetics 600
MIT
X-CLIP是CLIP的擴展版本,用於通用的視頻語言理解,通過對比學習在(視頻,文本)對上訓練。
文本生成視頻 Transformers 英語
X
microsoft
294
1
Xclip Large Patch14
MIT
X-CLIP是對CLIP的擴展,用於通用視頻-語言理解,通過對比學習在(視頻,文本)對上訓練。
文本生成視頻 Transformers 英語
X
microsoft
1,698
11
Xclip Base Patch16 16 Frames
MIT
X-CLIP是對CLIP的極簡擴展,用於通用視頻-語言理解,通過對比學習在(視頻,文本)對上訓練。
文本生成視頻 Transformers 英語
X
microsoft
1,034
0
Xclip Base Patch32 16 Frames
MIT
X-CLIP是CLIP的擴展版本,用於通用視頻語言理解,通過對比學習在視頻和文本對上訓練,適用於視頻分類和視頻-文本檢索等任務。
文本生成視頻 Transformers 英語
X
microsoft
901
4
Xclip Base Patch32
MIT
X-CLIP是CLIP的擴展版本,用於通用視頻語言理解,通過對比學習在(視頻,文本)對上訓練,適用於視頻分類和視頻-文本檢索等任務。
文本生成視頻 Transformers 英語
X
microsoft
309.80k
84
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase