SAIL 7B
Apache-2.0
SAIL是一個專為視覺與語言設計的單一Transformer模型,作為統一的多模態大語言模型(MLLM),它在單一架構中無縫集成了原始像素編碼和語言解碼功能。
圖像生成文本
Transformers

S
ByteDance-Seed
119
11
Internvl3 8B Hf
其他
InternVL3 是一個先進的多模態大語言模型系列,具備強大的多模態感知和推理能力,支持圖像、視頻和文本輸入。
圖像生成文本
Transformers 其他

I
OpenGVLab
454
1
Internvl3 2B AWQ
其他
InternVL3-2B是OpenGVLab推出的先進多模態大語言模型(MLLM),具備卓越的多模態感知和推理能力,支持工具使用、GUI代理、工業圖像分析、3D視覺感知等。

I
OpenGVLab
677
1
Internvl3 1B
其他
InternVL3-1B是InternVL3系列中的1B參數規模多模態大語言模型,整合了InternViT視覺編碼器和Qwen2.5語言模型,具備卓越的多模態感知和推理能力。

I
FriendliAI
71
1
Ovis2 1B Dev
Apache-2.0
Ovis2-1B是多模態大語言模型(MLLM)Ovis系列的最新成員,專注於視覺與文本嵌入的結構對齊,具有小模型高性能、強化推理能力、視頻與多圖處理以及多語言OCR增強等特性。
文本生成圖像
Transformers 支持多種語言

O
Isotr0py
79
1
Video R1 7B
Apache-2.0
Video-R1-7B是基於Qwen2.5-VL-7B-Instruct優化的多模態大語言模型,專注於視頻推理任務,能夠理解視頻內容並回答相關問題。
視頻生成文本
Transformers 英語

V
Video-R1
2,129
9
Finedefics
Finedefics 是一個開源的多模態大語言模型(MLLM),通過融入對象的信息化屬性描述,增強了細粒度視覺識別(FGVR)能力。
圖像生成文本
F
StevenHH2000
82
6
Minimax VL 01
MiniMax-VL-01是一個強大的多模態大語言模型,採用'ViT-MLP-LLM'框架,具有動態分辨率處理能力,在多項視覺語言任務中表現優異。
圖像生成文本
M
MiniMaxAI
237
253
Videorefer 7B Stage2.5
Apache-2.0
VideoRefer-7B是一個基於視頻大語言模型的多模態模型,專注於時空物體理解任務。
文本生成視頻
Transformers 英語

V
DAMO-NLP-SG
20
2
P MoD LLaVA NeXT 7B
Apache-2.0
p-MoD是一個基於漸進比例衰減方法構建的混合深度多模態大語言模型,支持圖像文本生成文本任務。
圖像生成文本
Safetensors
P
MCG-NJU
74
4
Llava UHD V2 Vicuna 7B
LLaVA-UHD v2 是一款先進的多模態大語言模型,圍繞分層窗口變換器構建,能夠通過高分辨率特徵金字塔捕捉不同視覺粒度。
多模態融合
Transformers

L
YipengZhang
103
6
Auroracap 7B VID Xtuner
Apache-2.0
AuroraCap是一個用於圖像和視頻字幕的多模態大語言模型,專注於高效和詳細的視頻字幕生成。
視頻生成文本
A
wchai
31
5
Eagle X5 7B
Eagle 是一系列以視覺為中心的高分辨率多模態大語言模型,支持高達1K以上的輸入分辨率,在光學字符識別和文檔理解等任務上表現出色。
圖像生成文本
Transformers

E
NVEagle
918
26
M3D LaMed Llama 2 7B
Apache-2.0
M3D是基於多模態大語言模型的3D醫學影像分析技術,包含M3D-Data數據集、M3D-LaMed模型和M3D-Bench評估基準。
圖像生成文本
Transformers

M
GoodBaiBai88
209
2
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98