# 多模態大語言模型

SAIL 7B
Apache-2.0
SAIL是一個專為視覺與語言設計的單一Transformer模型,作為統一的多模態大語言模型(MLLM),它在單一架構中無縫集成了原始像素編碼和語言解碼功能。
圖像生成文本 Transformers
S
ByteDance-Seed
119
11
Internvl3 8B Hf
其他
InternVL3 是一個先進的多模態大語言模型系列,具備強大的多模態感知和推理能力,支持圖像、視頻和文本輸入。
圖像生成文本 Transformers 其他
I
OpenGVLab
454
1
Internvl3 2B AWQ
其他
InternVL3-2B是OpenGVLab推出的先進多模態大語言模型(MLLM),具備卓越的多模態感知和推理能力,支持工具使用、GUI代理、工業圖像分析、3D視覺感知等。
Transformers 其他
I
OpenGVLab
677
1
Internvl3 1B
其他
InternVL3-1B是InternVL3系列中的1B參數規模多模態大語言模型,整合了InternViT視覺編碼器和Qwen2.5語言模型,具備卓越的多模態感知和推理能力。
Transformers 其他
I
FriendliAI
71
1
Ovis2 1B Dev
Apache-2.0
Ovis2-1B是多模態大語言模型(MLLM)Ovis系列的最新成員,專注於視覺與文本嵌入的結構對齊,具有小模型高性能、強化推理能力、視頻與多圖處理以及多語言OCR增強等特性。
文本生成圖像 Transformers 支持多種語言
O
Isotr0py
79
1
Video R1 7B
Apache-2.0
Video-R1-7B是基於Qwen2.5-VL-7B-Instruct優化的多模態大語言模型,專注於視頻推理任務,能夠理解視頻內容並回答相關問題。
視頻生成文本 Transformers 英語
V
Video-R1
2,129
9
Finedefics
Finedefics 是一個開源的多模態大語言模型(MLLM),通過融入對象的信息化屬性描述,增強了細粒度視覺識別(FGVR)能力。
圖像生成文本
F
StevenHH2000
82
6
Minimax VL 01
MiniMax-VL-01是一個強大的多模態大語言模型,採用'ViT-MLP-LLM'框架,具有動態分辨率處理能力,在多項視覺語言任務中表現優異。
圖像生成文本
M
MiniMaxAI
237
253
Videorefer 7B Stage2.5
Apache-2.0
VideoRefer-7B是一個基於視頻大語言模型的多模態模型,專注於時空物體理解任務。
文本生成視頻 Transformers 英語
V
DAMO-NLP-SG
20
2
P MoD LLaVA NeXT 7B
Apache-2.0
p-MoD是一個基於漸進比例衰減方法構建的混合深度多模態大語言模型,支持圖像文本生成文本任務。
圖像生成文本 Safetensors
P
MCG-NJU
74
4
Llava UHD V2 Vicuna 7B
LLaVA-UHD v2 是一款先進的多模態大語言模型,圍繞分層窗口變換器構建,能夠通過高分辨率特徵金字塔捕捉不同視覺粒度。
多模態融合 Transformers
L
YipengZhang
103
6
Auroracap 7B VID Xtuner
Apache-2.0
AuroraCap是一個用於圖像和視頻字幕的多模態大語言模型,專注於高效和詳細的視頻字幕生成。
視頻生成文本
A
wchai
31
5
Eagle X5 7B
Eagle 是一系列以視覺為中心的高分辨率多模態大語言模型,支持高達1K以上的輸入分辨率,在光學字符識別和文檔理解等任務上表現出色。
圖像生成文本 Transformers
E
NVEagle
918
26
M3D LaMed Llama 2 7B
Apache-2.0
M3D是基於多模態大語言模型的3D醫學影像分析技術,包含M3D-Data數據集、M3D-LaMed模型和M3D-Bench評估基準。
圖像生成文本 Transformers
M
GoodBaiBai88
209
2
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase