# 多模態大模型

INFRL Qwen2.5 VL 72B Preview Ggufs Fully Quantized
Apache-2.0
基於Qwen2.5-VL-72B-Instruct改進的視覺語言模型,在多個視覺推理基準測試中表現優異
文本生成圖像 英語
I
GeorgyGUF
230
0
Heron NVILA Lite 33B
Apache-2.0
Heron-NVILA-Lite-33B 是一款基於 NVILA-Lite 架構、專為日語訓練的視覺語言模型,支持日語和英語的多模態任務。
圖像生成文本 支持多種語言
H
turing-motors
99
3
Finetune VQA 1B
Apache-2.0
基於InternVL3-1B和Vintern-1B-v3_5微調的視覺問答模型,支持越南語,適用於圖像內容理解和問答任務。
文本生成圖像 其他
F
TienAnh
20
0
Emova Qwen 2 5 3b
Apache-2.0
EMOVA是一種端到端全能模態大語言模型,支持視覺、聽覺和語音功能,能夠生成具有情感控制的文本和語音響應。
多模態融合 Transformers 支持多種語言
E
Emova-ollm
25
2
Internvl3 2B Hf
其他
InternVL3-2B是基於Hugging Face Transformers庫實現的多模態大語言模型,在圖像、視頻和文本處理等多模態任務上表現出色,支持多種輸入方式和高效的批量推理。
圖像生成文本 Transformers 其他
I
OpenGVLab
41.22k
2
Internvl3 1B Hf
其他
InternVL3 是一個先進的多模態大語言模型系列,展示了卓越的多模態感知和推理能力,支持圖像、視頻和文本輸入。
圖像生成文本 Transformers 其他
I
OpenGVLab
1,844
2
Internvl3 78B Pretrained
其他
InternVL3-78B是OpenGVLab推出的先進多模態大語言模型,展現卓越的綜合性能。相比前代InternVL 2.5,具備更強大的多模態感知與推理能力,並將能力拓展至工具使用、GUI代理、工業圖像分析、3D視覺感知等新領域。
文本生成圖像 Transformers 其他
I
OpenGVLab
22
1
Qari OCR 0.3 SNAPSHOT VL 2B Instruct Merged
專為阿拉伯文光學字符識別(OCR)設計的視覺語言模型,能直接識別圖像中的阿拉伯文字。
圖像生成文本 Transformers
Q
NAMAA-Space
467
0
Qwen2.5 Omni 7B GPTQ 4bit
MIT
基於Qwen2.5-Omni-7B模型的4比特GPTQ量化版本,支持多語言和多模態任務。
多模態融合 Safetensors 支持多種語言
Q
FunAGI
3,957
51
Internvl 2 5 HiCo R16
Apache-2.0
InternVideo2.5 是一款基於長且豐富的上下文(LRC)建模增強的視頻多模態大語言模型(MLLM),構建於 InternVL2.5 之上。
文本生成視頻 Transformers 英語
I
FriendliAI
129
1
Internvideo2 5 Chat 8B
Apache-2.0
InternVideo2.5是一款基於長且豐富上下文(LRC)建模增強的視頻多模態大語言模型,構建於InternVL2.5之上,通過提升感知細粒度細節和捕捉長時序結構的能力,顯著改進了現有MLLM模型。
視頻生成文本 Transformers 英語
I
OpenGVLab
8,265
60
Internlm Xcomposer2d5 Ol 7b
其他
InternLM-XComposer2.5-OL是一個支持長時流式視頻與音頻交互的全方位多模態系統。
文本生成圖像 Safetensors
I
internlm
79
49
Mplug Owl3 7B 241101
Apache-2.0
mPLUG-Owl3是一款先進的多模態大語言模型,專注於解決長圖像序列理解問題,通過超注意力機制顯著提升處理速度和序列長度支持。
文本生成圖像 英語
M
mPLUG
302
10
Llm Jp 3 Vila 14b
由日本國立情報學研究所開發的大型視覺語言模型,支持日語和英語,具備強大的圖像理解和文本生成能力。
圖像生成文本 Safetensors 日語
L
llm-jp
106
10
Pixtral 12B Captioner Relaxed
Apache-2.0
基於Pixtral-12B-2409多模態大語言模型進行指令微調的版本,能夠為給定圖像生成更豐富的細節描述
圖像生成文本 Transformers 英語
P
Ertugrul
79
24
Docowl2
Apache-2.0
mPLUG-DocOwl2是一款無需OCR的多頁文檔理解多模態大語言模型,通過高分辨率文檔壓縮器高效編碼文檔內容。
圖像生成文本 英語
D
mPLUG
482
99
Chartmoe
Apache-2.0
ChartMoE是基於InternLM-XComposer2的多模態大語言模型,採用專家混合連接器,具備高級圖表功能。
圖像生成文本 Transformers
C
IDEA-FinAI
250
12
Kangaroo
Apache-2.0
袋鼠是一個專為長視頻理解設計的強大多模態大語言模型,支持中英雙語對話和長視頻輸入。
視頻生成文本 Transformers 支持多種語言
K
KangarooGroup
163
12
Xgen Mm Phi3 Mini Base R V1
Apache-2.0
XGen-MM是Salesforce AI Research開發的最新多模態大模型系列,基於BLIP的成功設計,通過基礎性增強實現了更強大、更優越的模型架構。
圖像生成文本 Transformers 英語
X
Salesforce
240
18
Internlm Xcomposer2 Vl 1 8b
其他
基於InternLM2的視覺-語言大模型,具備卓越的圖文理解與創作能力
文本生成圖像 Transformers
I
internlm
169
18
Internlm Xcomposer2 Vl 7b
其他
InternLM-XComposer2是基於InternLM2研發的視覺-語言大模型,具備卓越的圖文理解與創作能力。
文本生成圖像 Transformers
I
internlm
1,902
82
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase