Qwen2.5 VL 7B Instruct GGUF
Apache-2.0
Qwen2.5-VL是Qwen家族最新推出的視覺語言模型,具備強大的視覺理解和多模態處理能力,支持圖像、視頻分析和結構化輸出。
圖像生成文本 英語
Q
unsloth
8,427
4
Docscopeocr 7B 050425 Exp
Apache-2.0
docscopeOCR-7B-050425-exp 是基於 Qwen/Qwen2.5-VL-7B-Instruct 微調的模型,專注於文檔級 OCR、長上下文視覺語言理解和數學 LaTeX 格式的精確圖像到文本轉換。
圖像生成文本
Transformers 支持多種語言

D
prithivMLmods
531
2
Llavaction 0.5B
LLaVAction是一個用於動作識別的多模態大語言模型,基於Qwen2語言模型,在EPIC-KITCHENS-100-MQA數據集上訓練而成。
視頻生成文本
Transformers 英語

L
MLAdaptiveIntelligence
215
1
Vamba Qwen2 VL 7B
MIT
Vamba是一種混合Mamba-Transformer架構,通過交叉注意力層與Mamba-2模塊實現高效的長視頻理解。
視頻生成文本
Transformers

V
TIGER-Lab
806
16
Qwen2.5 VL 3B Instruct 4bit
Qwen2.5-VL是Qwen家族的最新視覺語言模型,具備增強的視覺理解、智能體功能和長視頻處理能力。
文本生成圖像
Transformers 英語

Q
jarvisvasu
174
3
Internvl 2 5 HiCo R64
Apache-2.0
基於長且豐富的上下文(LRC)建模增強的視頻多模態大語言模型,通過提升感知細粒度細節和捕捉長時態結構的能力改進現有MLLM
視頻生成文本
Transformers 英語

I
OpenGVLab
252
2
Internvideo2 5 Chat 8B
Apache-2.0
InternVideo2.5是一款基於長且豐富上下文(LRC)建模增強的視頻多模態大語言模型,構建於InternVL2.5之上,通過提升感知細粒度細節和捕捉長時序結構的能力,顯著改進了現有MLLM模型。
視頻生成文本
Transformers 英語

I
OpenGVLab
8,265
60
Llava Video 7B Qwen2 TPO
MIT
LLaVA-Video-7B-Qwen2-TPO是基於LLaVA-Video-7B-Qwen2進行時間偏好優化的視頻理解模型,在多個基準測試中表現優異。
視頻生成文本
Transformers

L
ruili0
490
1
Longva 7B TPO
MIT
LongVA-7B-TPO是基於LongVA-7B通過時序偏好優化而來的視頻-文本模型,在長視頻理解任務中表現優異。
視頻生成文本
Transformers

L
ruili0
225
1
Apollo LMMs Apollo 7B T32
Apache-2.0
Apollo是一系列專注於視頻理解的大型多模態模型,擅長處理長達一小時的視頻內容,支持複雜視頻問答和多輪對話。
視頻生成文本
Transformers 英語

A
GoodiesHere
67
55
Apollo LMMs Apollo 1 5B T32
Apache-2.0
Apollo 是一系列專注於視頻理解的大型多模態模型,擅長處理長視頻內容理解、時序推理和複雜視頻問答等任務。
視頻生成文本
A
GoodiesHere
37
10
Longvu Llama3 2 1B
Apache-2.0
LongVU 是一種面向長視頻語言理解的時空自適應壓縮技術,旨在高效處理長視頻內容,提升語言理解能力。
視頻生成文本
L
Vision-CAIR
465
11
Oryx 1.5 7B
Apache-2.0
Oryx-1.5-7B是基於Qwen2.5語言模型開發的7B參數模型,支持32K tokens上下文窗口,專注於高效處理任意空間尺寸和時長的視覺輸入。
文本生成視頻
Safetensors 支持多種語言
O
THUdyh
133
7
Longvu Llama3 2 3B
Apache-2.0
LongVU是一種面向長視頻語言理解的時空自適應壓縮技術,旨在高效處理長視頻內容。
視頻生成文本
PyTorch
L
Vision-CAIR
1,079
7
Longvu Qwen2 7B
Apache-2.0
LongVU是基於Qwen2-7B的多模態模型,專注於長視頻語言理解任務,採用時空自適應壓縮技術。
視頻生成文本
L
Vision-CAIR
230
69
Llava Video 7B Qwen2
Apache-2.0
LLaVA-視頻模型是基於Qwen2語言模型的7B參數多模態模型,專注於視頻理解任務,支持64幀視頻輸入。
視頻生成文本
Transformers 英語

L
lmms-lab
34.28k
91
Kangaroo
Apache-2.0
袋鼠是一個專為長視頻理解設計的強大多模態大語言模型,支持中英雙語對話和長視頻輸入。
視頻生成文本
Transformers 支持多種語言

K
KangarooGroup
163
12
Timesformer Large Finetuned K400
TimeSformer是一個基於空間-時間注意力機制的視頻分類模型,專門用於視頻理解任務。
視頻處理
Transformers

T
fcakyon
254
0
Timesformer Base Finetuned K600
TimeSformer是基於空間-時間注意力機制的視頻分類模型,在Kinetics-600數據集上進行了微調。
視頻處理
Transformers

T
fcakyon
20
0
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98