# 多模態交互

Moondream 2b 2025 04 14 4bit
Apache-2.0
Moondream是一款輕量級視覺語言模型,專為高效全平臺運行而設計。2025年4月14日發佈的4比特量化版在保持高精度的同時大幅降低內存佔用。
圖像生成文本 Safetensors
M
moondream
6,037
38
Agentcpm GUI
Apache-2.0
AgentCPM-GUI是一款具備RFT增強推理能力的設備端圖形界面代理,可操作中英文應用,基於80億參數的MiniCPM-V構建。
圖像生成文本 支持多種語言
A
openbmb
541
94
UI TARS 1.5 7B 4bit
Apache-2.0
UI-TARS-1.5-7B-4bit是一個多模態模型,專注於圖像文本到文本的轉換任務,支持英文語言。
圖像生成文本 Transformers 支持多種語言
U
mlx-community
184
1
Gemma 3 12b It Qat 3bit
其他
這是一個基於 Google Gemma 3-12B 模型轉換而來的 MLX 格式模型,支持圖像文本到文本的任務。
圖像生成文本 Transformers 其他
G
mlx-community
65
1
Videochat R1 Thinking 7B
Apache-2.0
VideoChat-R1-thinking_7B 是一個基於 Qwen2.5-VL-7B-Instruct 的多模態模型,專注於視頻文本轉文本任務。
視頻生成文本 Transformers 英語
V
OpenGVLab
800
0
Jarvisvla Qwen2 VL 7B
MIT
專為《我的世界》設計的視覺-語言-動作模型,支持基於人類語言指令執行遊戲內數千種技能
圖像生成文本 Transformers 英語
J
CraftJarvis
163
8
Qwen2.5 VL 3B UI R1
MIT
UI-R1是通過強化學習增強GUI代理動作預測的視覺語言模型,基於Qwen2.5-VL-3B-Instruct構建。
文本生成圖像 英語
Q
LZXzju
96
6
Vamba Qwen2 VL 7B
MIT
Vamba是一種混合Mamba-Transformer架構,通過交叉注意力層與Mamba-2模塊實現高效的長視頻理解。
視頻生成文本 Transformers
V
TIGER-Lab
806
16
Videochatonline 4B
MIT
VideoChat-Online是一個基於Phi-3-vision-128k-instruct的在線視頻理解模型,專注於視頻文本轉文本任務。
視頻生成文本 Safetensors
V
MCG-NJU
61
0
Smolvlm2 500M Video Instruct Mlx
Apache-2.0
這是一個基於MLX格式的視頻文本轉文本模型,由HuggingFaceTB開發,支持英文語言處理。
圖像生成文本 Transformers 英語
S
mlx-community
2,491
12
Ultravox V0 5 Llama 3 1 8b
MIT
Ultravox是一款基於Llama3.1-8B-Instruct和whisper-large-v3-turbo構建的多模態語音大語言模型,能夠同時處理語音和文本輸入。
文本生成音頻 Transformers 支持多種語言
U
fixie-ai
17.86k
12
Fluxi AI Small Vision
Apache-2.0
Fluxi AI 是一款基於 Qwen2-VL-7B-Instruct 的多模態智能助手,具備文本、圖像和視頻處理能力,特別優化了葡萄牙語支持。
圖像生成文本 Transformers 其他
F
JJhooww
25
2
Uground V1 2B
Apache-2.0
UGround是一個強大的GUI視覺定位模型,採用簡單的方法進行訓練,由OSUNLP和Orby AI合作完成。
多模態融合 Transformers 英語
U
osunlp
975
8
Uground V1 7B
Apache-2.0
UGround是一款採用簡單配方訓練的強大GUI視覺定位模型,由OSU NLP Group與Orby AI合作完成。
圖像生成文本 Transformers 英語
U
osunlp
2,053
12
Smolvlm Instruct
Apache-2.0
基於HuggingFaceTB/SmolVLM-Instruct微調的智能視覺語言模型,採用Unsloth和TRL庫優化訓練速度
文本生成圖像 Transformers 英語
S
mjschock
18
2
Dallah Llama
Dallah是一款專為阿拉伯語設計的先進多模態大語言模型,特別注重理解與生成跨阿拉伯方言的內容。
文本生成圖像 Safetensors 阿拉伯語
D
alielfilali01
17
0
Command132
MIT
由 OMEGA Labs 和 Bittensor 合作開發的 Any-to-Any 子網模型,支持多種任務轉換
大型語言模型 其他
C
mrbeanlas
0
0
Mini Omni2
MIT
Mini-Omni2是一款全交互式多模態模型,能理解圖像、音頻和文本輸入,並與用戶進行端到端的語音對話。
多模態融合
M
gpt-omni
192
269
Sam2.1 Hiera Tiny
Apache-2.0
SAM 2是由FAIR研發的面向圖像和視頻可提示視覺分割的基礎模型,支持通過提示進行高效分割。
圖像分割
S
facebook
12.90k
9
Sam2.1 Hiera Small
Apache-2.0
SAM 2是FAIR研發的面向圖像與視頻可提示視覺分割的基礎模型,支持通過提示進行高效分割。
圖像分割
S
facebook
7,333
6
Sam2.1 Hiera Large
Apache-2.0
SAM 2是FAIR研發的面向圖像與視頻可提示視覺分割的基礎模型,支持通過提示進行通用分割任務。
圖像分割
S
facebook
203.27k
81
Llava Video 7B Qwen2
Apache-2.0
LLaVA-視頻模型是基於Qwen2語言模型的7B參數多模態模型,專注於視頻理解任務,支持64幀視頻輸入。
視頻生成文本 Transformers 英語
L
lmms-lab
34.28k
91
Xgen Mm Phi3 Mini Instruct Interleave R V1.5
Apache-2.0
xGen-MM是Salesforce AI Research開發的一系列最新基礎大型多模態模型(LMMs),在BLIP系列成功設計的基礎上進行了改進,通過基礎性增強確保了更強大和卓越的模型基礎。
圖像生成文本 英語
X
Salesforce
7,373
51
Sam2 Hiera Small
Apache-2.0
FAIR研發的基礎模型,用於解決圖像和視頻中可提示視覺分割任務
圖像分割
S
facebook
12.98k
13
Sam2 Hiera Tiny
Apache-2.0
SAM 2是FAIR研發的面向圖像和視頻可提示視覺分割的基礎模型,支持通過提示進行高效分割。
圖像分割
S
facebook
41.88k
20
Sam2 Hiera Large
Apache-2.0
FAIR研發的面向圖像與視頻可提示視覺分割的基礎模型
圖像分割
S
facebook
155.85k
68
Uground
UGround是通過簡潔配方訓練的強力GUI視覺定位模型,由俄亥俄州立大學NLP組與Orby AI合作完成。
圖像生成文本
U
osunlp
208
23
Internvideo2 Chat 8B
MIT
InternVideo2-Chat-8B是一個結合大型語言模型(LLM)和視頻BLIP的視頻理解模型,通過漸進式學習方案構建,能夠進行視頻語義理解和人機交互。
視頻生成文本 Transformers 英語
I
OpenGVLab
492
22
Llava MORE Llama 3 1 8B Finetuning
Apache-2.0
LLaVA-MORE是基於LLaVA架構的增強版本,集成了LLaMA 3.1作為語言模型,專注於圖像到文本的任務。
圖像生成文本 Transformers
L
aimagelab
215
9
Poppy Porpoise 0.72 L3 8B
其他
基於Llama 3 8B模型的AI角色扮演助手,專注於打造沉浸式敘事體驗
大型語言模型 Transformers
P
Nitral-AI
41
32
Poppy Porpoise V0.7 L3 8B
其他
基於Llama 3 8B模型的AI角色扮演助手,專注於打造互動敘事體驗
文本生成圖像 Transformers
P
Nitral-AI
32
47
Mixtral AI Vision 128k 7b
MIT
一個結合視覺與語言能力的多模態模型,通過合併方法實現圖像與文本交互功能
圖像生成文本 Transformers 英語
M
LeroyDyer
384
4
Instructblip Flan T5 Xl 8bit Nf4
MIT
InstructBLIP是基於BLIP-2的視覺指令調優版本,結合視覺和語言處理能力,能夠根據圖像和文本指令生成響應。
圖像生成文本 Transformers 英語
I
benferns
20
0
Instructblip Flan T5 Xl 8bit Nf4
MIT
InstructBLIP是基於BLIP-2的視覺指令調優模型,使用Flan-T5-xl作為語言模型,能夠根據圖像和文本指令生成描述。
圖像生成文本 Transformers 英語
I
Mediocreatmybest
22
0
Instructblip Flan T5 Xxl 8bit Nf4
MIT
InstructBLIP是BLIP-2的視覺指令調優版本,結合了視覺和語言模型,能夠根據圖像和文本指令生成描述或回答問題。
圖像生成文本 Transformers 英語
I
Mediocreatmybest
22
1
Idefics 80b
其他
IDEFICS-9B是一個90億參數的多模態模型,能夠處理圖像和文本輸入並生成文本輸出,是Deepmind Flamingo模型的開源復現版本。
圖像生成文本 Transformers 英語
I
HuggingFaceM4
70
70
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase