# 長視頻理解

Qwen2.5 VL 7B Instruct GGUF
Apache-2.0
Qwen2.5-VL是Qwen家族最新推出的視覺語言模型,具備強大的視覺理解和多模態處理能力,支持圖像、視頻分析和結構化輸出。
圖像生成文本 英語
Q
unsloth
8,427
4
Docscopeocr 7B 050425 Exp
Apache-2.0
docscopeOCR-7B-050425-exp 是基於 Qwen/Qwen2.5-VL-7B-Instruct 微調的模型,專注於文檔級 OCR、長上下文視覺語言理解和數學 LaTeX 格式的精確圖像到文本轉換。
圖像生成文本 Transformers 支持多種語言
D
prithivMLmods
531
2
Llavaction 0.5B
LLaVAction是一個用於動作識別的多模態大語言模型,基於Qwen2語言模型,在EPIC-KITCHENS-100-MQA數據集上訓練而成。
視頻生成文本 Transformers 英語
L
MLAdaptiveIntelligence
215
1
Vamba Qwen2 VL 7B
MIT
Vamba是一種混合Mamba-Transformer架構,通過交叉注意力層與Mamba-2模塊實現高效的長視頻理解。
視頻生成文本 Transformers
V
TIGER-Lab
806
16
Qwen2.5 VL 3B Instruct 4bit
Qwen2.5-VL是Qwen家族的最新視覺語言模型,具備增強的視覺理解、智能體功能和長視頻處理能力。
文本生成圖像 Transformers 英語
Q
jarvisvasu
174
3
Internvl 2 5 HiCo R64
Apache-2.0
基於長且豐富的上下文(LRC)建模增強的視頻多模態大語言模型,通過提升感知細粒度細節和捕捉長時態結構的能力改進現有MLLM
視頻生成文本 Transformers 英語
I
OpenGVLab
252
2
Internvideo2 5 Chat 8B
Apache-2.0
InternVideo2.5是一款基於長且豐富上下文(LRC)建模增強的視頻多模態大語言模型,構建於InternVL2.5之上,通過提升感知細粒度細節和捕捉長時序結構的能力,顯著改進了現有MLLM模型。
視頻生成文本 Transformers 英語
I
OpenGVLab
8,265
60
Llava Video 7B Qwen2 TPO
MIT
LLaVA-Video-7B-Qwen2-TPO是基於LLaVA-Video-7B-Qwen2進行時間偏好優化的視頻理解模型,在多個基準測試中表現優異。
視頻生成文本 Transformers
L
ruili0
490
1
Longva 7B TPO
MIT
LongVA-7B-TPO是基於LongVA-7B通過時序偏好優化而來的視頻-文本模型,在長視頻理解任務中表現優異。
視頻生成文本 Transformers
L
ruili0
225
1
Apollo LMMs Apollo 7B T32
Apache-2.0
Apollo是一系列專注於視頻理解的大型多模態模型,擅長處理長達一小時的視頻內容,支持複雜視頻問答和多輪對話。
視頻生成文本 Transformers 英語
A
GoodiesHere
67
55
Apollo LMMs Apollo 1 5B T32
Apache-2.0
Apollo 是一系列專注於視頻理解的大型多模態模型,擅長處理長視頻內容理解、時序推理和複雜視頻問答等任務。
視頻生成文本
A
GoodiesHere
37
10
Longvu Llama3 2 1B
Apache-2.0
LongVU 是一種面向長視頻語言理解的時空自適應壓縮技術,旨在高效處理長視頻內容,提升語言理解能力。
視頻生成文本
L
Vision-CAIR
465
11
Oryx 1.5 7B
Apache-2.0
Oryx-1.5-7B是基於Qwen2.5語言模型開發的7B參數模型,支持32K tokens上下文窗口,專注於高效處理任意空間尺寸和時長的視覺輸入。
文本生成視頻 Safetensors 支持多種語言
O
THUdyh
133
7
Longvu Llama3 2 3B
Apache-2.0
LongVU是一種面向長視頻語言理解的時空自適應壓縮技術,旨在高效處理長視頻內容。
視頻生成文本 PyTorch
L
Vision-CAIR
1,079
7
Longvu Qwen2 7B
Apache-2.0
LongVU是基於Qwen2-7B的多模態模型,專注於長視頻語言理解任務,採用時空自適應壓縮技術。
視頻生成文本
L
Vision-CAIR
230
69
Llava Video 7B Qwen2
Apache-2.0
LLaVA-視頻模型是基於Qwen2語言模型的7B參數多模態模型,專注於視頻理解任務,支持64幀視頻輸入。
視頻生成文本 Transformers 英語
L
lmms-lab
34.28k
91
Kangaroo
Apache-2.0
袋鼠是一個專為長視頻理解設計的強大多模態大語言模型,支持中英雙語對話和長視頻輸入。
視頻生成文本 Transformers 支持多種語言
K
KangarooGroup
163
12
Timesformer Large Finetuned K400
TimeSformer是一個基於空間-時間注意力機制的視頻分類模型,專門用於視頻理解任務。
視頻處理 Transformers
T
fcakyon
254
0
Timesformer Base Finetuned K600
TimeSformer是基於空間-時間注意力機制的視頻分類模型,在Kinetics-600數據集上進行了微調。
視頻處理 Transformers
T
fcakyon
20
0
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase